首先阅读此文之前,最好阅读 http://hi.baidu.com/maml897/blog/item/324bf86369961ed4e6113a5c.html
http://hi.baidu.com/maml897/blog/item/fa5f0a7e1edef00129388ae2.html
其次还要知道一点常识,就是我们在记事本等一些文本工具中 写的都是字符,没有谁会去写字节(可以写字节,但是要用具特殊的编辑器),但是其实,我们的写的是字符,但磁盘上真实存储的是字节。
这里就出现了转换的问题,当然,这些问题记事本本身会帮助我们解决。我们打开一个记事本,然后文件--另存为,你会发现有几种存储格式供您选择, ANSI格式:就是ascii的格式 Unicode格式:采用国际通用的编码存储 Unicode big endian格式:这个和unicode有点区别,但我也不明太具体的不同 UTF-8:采用utf-8存储,看过上面的两篇文章,你会十分的了解这里介绍的编码。Utf-8,是unicode的一种实现方式。
例如我们在记事本里面输入“连通”两个字。
1.我们另存记事本的时候,采用unicode存储,那么虽然我们看到的字符还是“连通”,但是其实存储在磁盘上的字节 确实 8FDE(连) 901A (通),这个是规定的,unicode是国际上规定的,给世界上的每个字符分配的唯一编码。获取某个字符的unicode的方法,可以去网上查找,最简单的方法,就是打开word文档,输入字符,把光标移动到字符后面,按alt+x,word会自动把字符转换成unicode编码,这里呢我们也可以看到,用unicode存储汉字啊,每个汉字占用两个字节。
2.我们另存记事本的时候,采用utf-8存储,虽然我们看到的字符还是“连通”,但是其实存储在磁盘上的字节 确实已经变化了,这时候存储的是 E8 BF 9E (连)E9 80 9A(通)。这就是utf-8的存储的编码,至于utf-8为什么这样存储,你可以阅读上面的两篇文章来了解,可以看到,utf-8使用3个字节存储一个汉字。
另外我们还要知道的就是:电脑怎么区分一个记事本是用什么存储的呢? 换句话说,为什么我用unicode存储的8FDE(连) 901A (通),电脑就知道这是unicode编码,从而使用unicode解码,还原为“连通”呢?电脑又怎么知道E8 BF 9E (连)E9 80 9A(通)这是按照utf-8的存储方式存储的呢?
这里有一点标记,就是在存储字节的时候,记事本首先在最前面 标明,这个记事本下面的存储格式 是utf-8,还是unicode。
例如,
1.unicode存储“连通”。磁盘字节真实存储的其实是:
FF FE 8FDE 901A
前两个FF FE是标记,告诉电脑,这个文档的存储方式是unicode
2.utf-8存储“连通”。磁盘字节真实存储的其实是:
EF BB BF E8 BF 9E E9 80 9A
前三个EF BB BF 告诉电脑 这个文档是utf-8存储的
根据不同编码的特点和标志,对一个文本文件判断编码方法如下 1 . UTF7 所有字节的内容不会大于127,也就是不大于&HFF 2 . UTF8 起始三个字节为"0xEF 0xBB 0xBF" 3 . UTF-16BE 起始三个字节为"0xFE 0xFF" 4 . UTF-16LE 起始三个字节为"0xFF 0xFE"