posts - 97, comments - 93, trackbacks - 0

今天自己突然想起来整理一下标准的charset，感觉还算有必要。当然java也有很多方法来处理不同的格式。
US-ASCII 7位ASCII字符，也叫作 ISO646-US、Unicode 字符集的基本拉丁块
ISO-8859-1 ISO拉丁字母表No.1，也叫作 ISO-LATIN-1
UTF-8 8位UCS转换格式
UTF-16BE 16位 UCS 转换格式，Big Endian（最低地址存放高位字节）字节顺序
UTF-16LE 16位 UCS 转换格式，Little-endian（最高地址存放低位字节）字节顺序
UTF-16 16位 UCS 转换格式，字节顺序由可选的字节顺序标记来标识

UTF-8 charset 在 RFC 2279 中指定；它所基于的转换格式在 ISO 10646-1 的 Amendment 2 中指定，并在 Unicode Standard 中也有所描述。

UTF-16 charset 在 RFC 2781 中指定；它们基于的转换格式在 ISO10646-1 的 Amendment 1 中指定，并在 Unicode Standard 中也有所描述。

UTF-16 charset 使用 16 位量，因此对字节顺序敏感。在这些编码中，流的字节顺序可以由 Unicode 字符 'FF' 所表示的初始字节顺序标记来指示。按以下方式处理字节顺序标记：

进行解码时，UTF-16BE 和 UTF-16LE charset 忽略字节顺序标记；进行编码时，不写入字节顺序标记。

进行解码时，UTF-16 charset 解释字节顺序标记，以指示流的字节顺序，但是如果没有字节顺序标记，则默认使用 Big Endian；进行编码时，使用 Big Endian 字节顺序并写入 Big Endian 字节顺序标记。

在任何情况中，在解码操作的开始读取字节顺序标记时，将在结果字符序列中忽略该标记。字节顺序标记出现在输入序列的第一个元素之后时，由于使用相同的代码表示零宽度不间断空格，所以不忽略该标记。

posted on 2007-05-06 19:50 wqwqwqwqwq 阅读(642) 评论(0) 编辑收藏所属分类: Simple Java

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Europa myeclipse matisse Struts Review JFx~~~~builder JNDI~基础标准字符集~ ANT ANT十五大最佳实践(转载)--o'reilly 利用google api写的小程序　 java与元数据 java.security

2007年5月

日

一

二

三

四

五

六

常用链接

留言簿(10)

随笔分类(95)

随笔档案(97)

文章档案(10)

相册

Friends' WELLDONE

常用链接

留言簿(10)

随笔分类(95)

随笔档案(97)

文章档案(10)

相册

J2ME技术网站

java技术相关

mess

搜索

最新评论

阅读排行榜