1.计算机信息的存储与处理
计算机信息(包括字母、各种符号、图形符号)分为:
|--数据信息
|--数值
|--非数值
|--控制信息
计算机信息以二进制编码方式存入计算机并得以处理。
这种二进制代码就叫字符编码。
2.西文字符集
使用最广泛的西文字符集及编码是:ASCII字符集 和 ASCII码
(American Standard Code for Information Interchange)美国标准信息交换码
使用7个或8个二进制进行编码的方案,最多可以给256个字符编码。
基本的ASCII字符集共有128个字符,其中96个是可打印字符。
A为65,0为48
大小写之间差32
3.MBCS
为扩充ASCII编码,不同国家地区制定了不同的标准。它些使用2个字节代表一个字符的各种汉字延伸编码方式,称为ANSI编码 (American Nation Standards Institute-美国国家标准学会)又称为:Muilti-Bytes Charecter Set 多字节字符集
简体中文下,ANSI表示GB2312编码
由于不同ANSI编码互不兼容,因此将属于两种语言的文字存储在同一段ANSI编码的文本中。另外同一个编码值在不同的编码体系代表不同的字,这样容易造成混乱。这就导致了UNICODE码的诞生。
所有的编码都有一个转换器可以转到unicode,而unicode也可以转换到其它所有的编码
3.GB2312
中国国家标准总局发布了一系列汉字字符集国家标准编码,其中最有影响的是 1980年发布的GB 2312-1980,因其使用非常普遍,也被称为国标码。
GB2312由6763个常用汉字和682个全角的非汉字字符组成。汉字根据使用频率分两级,一级3755个,二级3008个。采用二维矩阵编码法对所有字条进行编码。94行94列的方阵,每一行称为一个区,每一列称为一个位。
4.UNICODE编码
它是一个大而全的编码,包含了世界上所有的符号,无论是英文,日文,还是中文。现在的规模可以容纳100多万个符号,每个符号的编码都不一样。
虽然统一了编码方式,但它的效率不高。对存储和传输来说都很耗资源
5.UTF-8
为提高 unicode的编码效率,出现了UTF-8编码。
它可根据不同的符号自动选择编码的长短。