posts - 97,  comments - 93,  trackbacks - 0
今天自己突然想起来整理一下标准的charset,感觉还算有必要。当然java也有很多方法来处理不同的格式。
US-ASCII 7位ASCII字符,也叫作 ISO646-US、Unicode 字符集的基本拉丁块
ISO-8859-1   ISO拉丁字母表No.1,也叫作 ISO-LATIN-1
UTF-8 8位UCS转换格式
UTF-16BE 16位 UCS 转换格式,Big Endian(最低地址存放高位字节)字节顺序
UTF-16LE 16位 UCS 转换格式,Little-endian(最高地址存放低位字节)字节顺序
UTF-16 16位 UCS 转换格式,字节顺序由可选的字节顺序标记来标识

UTF-8 charset 在 RFC 2279 中指定;它所基于的转换格式在 ISO 10646-1 的 Amendment 2 中指定,并在 Unicode Standard 中也有所描述。

UTF-16 charset 在 RFC 2781 中指定;它们基于的转换格式在 ISO10646-1 的 Amendment 1 中指定,并在 Unicode Standard 中也有所描述。

UTF-16 charset 使用 16 位量,因此对字节顺序敏感。在这些编码中,流的字节顺序可以由 Unicode 字符 'FF' 所表示的初始字节顺序标记 来指示。按以下方式处理字节顺序标记:

进行解码时,UTF-16BE 和 UTF-16LE charset 忽略字节顺序标记;进行编码时,不写入字节顺序标记。

进行解码时,UTF-16 charset 解释字节顺序标记,以指示流的字节顺序,但是如果没有字节顺序标记,则默认使用 Big Endian;进行编码时,使用 Big Endian 字节顺序并写入 Big Endian 字节顺序标记。

在任何情况中,在解码操作的开始读取字节顺序标记时,将在结果字符序列中忽略该标记。字节顺序标记出现在输入序列的第一个元素之后时,由于使用相同的代码表示零宽度不间断空格,所以不忽略该标记。

posted on 2007-05-06 19:50 wqwqwqwqwq 阅读(611) 评论(0)  编辑  收藏 所属分类: Simple Java

只有注册用户登录后才能发表评论。


网站导航:
 
<2007年5月>
293012345
6789101112
13141516171819
20212223242526
272829303112
3456789




常用链接

留言簿(10)

随笔分类(95)

随笔档案(97)

文章档案(10)

相册

J2ME技术网站

java技术相关

mess

搜索

  •  

最新评论

阅读排行榜

校园梦网网络电话,中国最优秀的网络电话