文本¶
文本编码¶
- ASCII码:美国信息交换标准代码,可表示128个字符。
- GB2312-80、B18030字符集,汉字编码。
- 一个汉字占用两个字节的存储空间。
- 一个英文字符占用一个字节的存储空间。
常见文本格式¶
Doc(word文档)、Txt(文本文件)、PDF、HTML
采集方法¶
录入、网上获取
文字处理软件¶
Word/写字板/记事本/WPS/PDF( 记事本默认的保存格式为纯文本格式:TXT,只含有文字,是所有文本格式中占存储空间最小的 )
网上获取的方式及步骤¶
- 网页局部文字获取方式:
- 1.在网页上选取要复制的文字2.Ctrl+C(复制)3.打开文本编辑器4.Ctrl+V(粘贴)。
- 提示:
- 在word中在要获得纯文本,粘贴时要使用“编辑”菜单中的 选择性粘贴 命令,并在对话框中选择 “无格式文本”。
- 网页全部文字获取方式
- 1.文件→另存为2.文件类型:文本文件(txt)3.保存
- 提示:
- 若文件类型为“网页全部”,会在指定置 产生一个文件和一个文件夹。