注销

:: 管理 ::

112 随笔 :: 7 文章 :: 18 评论 :: 0 Trackbacks

相关：

UNICODE 是为了处理包括中文，日文等字符而提出的一种通用的字符集。最初的UNICODE为双字节字符集，即16位编码，能够包括65，536个字符。但这样的容量并不能满足所有需要，因此，现在的UNICODE已经扩展到4个字节，能够容纳1,112,064 个字符，而这些在16位之后的扩展背称为增补字符。

UTF-32 、 UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案。

UTF-8 使用一至四个字节的序列对编码 Unicode 代码点进行编码

UTF-8 使用一至四个字节的序列对编码 Unicode 代码点进行编码。U+0000 至 U+007F 使用一个字节编码，U+0080 至 U+07FF 使用两个字节，U+0800 至 U+FFFF 使用三个字节，而 U+10000 至 U+10FFFF 使用四个字节。UTF-8 设计原理为：字节值 0x00 至 0x7F 始终表示代码点 U+0000 至 U+007F（Basic Latin 字符子集，它对应 ASCII 字符集）。这些字节值永远不会表示其他代码点，这一特性使 UTF-8 可以很方便地在软件中将特殊的含义赋予某些 ASCII 字符。

　 GB2312(1980 年 ) 一共收录了 7445 个字符，包括 6763 个汉字和 682 个其它符号。汉字区的内码范围高字节从 B0-F7 ，低字节从 A1-FE ，占用的码位是 72*94=6768 。其中有 5 个空位是 D7FA-D7FE 。当然也可以表示数字和字符（一个字节，与 ASCII 表示相同）。

要读取一个以 GB2312 编码的包含汉字、数字、字母的二进制文件。

String strName =Encoding.GetEncoding("gb2312").GetString(name,0,i) ;

// name 是读取的二进制数组。

这样就能将二进制数组转换为汉字、数字或字母

同样：也可以将包含汉字、数字、字母的字符串转换为二进制数组保存到二进制文件。

String unicodeString = " 备用43E";

Byte[] encodedBytes = Encoding.GetEncoding("gb2312").GetBytes(unicodeString);

当然也可以进行二进制数组与UNICODE，UTF-8等编码方式的转换

Byte[] encodedBytes = utf8.GetBytes(unicodeString);

String decodedString = utf8.GetString(encodedBytes);

UnicodeEncoding unicode = new UnicodeEncoding();

Byte[] encodedBytes = unicode.GetBytes(unicodeString);

String decodedString = unicode.GetString(encodedBytes);

posted on 2006-10-24 09:13 注销..... 阅读(886) 评论(0) 编辑收藏所属分类: 阅读摘要

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: 人应该做自己最热爱的事，不热爱的工作不可能创造奇迹嵌入式微处理器结构与应用汇编语言指令集　java 数据库基本操作 JAVA数据类型转换持久层的组成(转) hibernate入门 Hibernate 3新增XML关系持久性介绍（转）一艘没有航行目标的船，任何方向迭代器

注销

常用链接

留言簿(2)

随笔分类

随笔档案

文章分类

文章档案

相册

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜