文本

文本编码

  • ASCII码:美国信息交换标准代码,可表示128个字符。
  • GB2312-80、B18030字符集,汉字编码。
  • 一个汉字占用两个字节的存储空间。
  • 一个英文字符占用一个字节的存储空间。

常见文本格式

Doc(word文档)、Txt(文本文件)、PDF、HTML


采集方法

录入、网上获取


文字处理软件

Word/写字板/记事本/WPS/PDF( 记事本默认的保存格式为纯文本格式:TXT,只含有文字,是所有文本格式中占存储空间最小的 )


网上获取的方式及步骤

网页局部文字获取方式:
1.在网页上选取要复制的文字
2.Ctrl+C(复制)
3.打开文本编辑器
4.Ctrl+V(粘贴)。
提示:
在word中在要获得纯文本,粘贴时要使用“编辑”菜单中的 选择性粘贴 命令,并在对话框中选择 “无格式文本”
网页全部文字获取方式
1.文件→另存为
2.文件类型:文本文件(txt)
3.保存
提示:
若文件类型为“网页全部”,会在指定置 产生一个文件和一个文件夹