今天自己突然想起来整理一下标准的charset,感觉还算有必要。当然java也有很多方法来处理不同的格式。
US-ASCII 7位ASCII字符,也叫作 ISO646-US、Unicode 字符集的基本拉丁块
ISO-8859-1 ISO拉丁字母表No.1,也叫作 ISO-LATIN-1
UTF-8 8位UCS转换格式
UTF-16BE 16位 UCS 转换格式,Big Endian(最低地址存放高位字节)字节顺序
UTF-16LE 16位 UCS 转换格式,Little-endian(最高地址存放低位字节)字节顺序
UTF-16 16位 UCS 转换格式,字节顺序由可选的字节顺序标记来标识
UTF-8 charset 在 RFC 2279 中指定;它所基于的转换格式在 ISO 10646-1 的 Amendment 2 中指定,并在 Unicode Standard 中也有所描述。
UTF-16 charset 在 RFC 2781 中指定;它们基于的转换格式在 ISO10646-1 的 Amendment 1 中指定,并在 Unicode Standard 中也有所描述。
UTF-16 charset 使用 16 位量,因此对字节顺序敏感。在这些编码中,流的字节顺序可以由 Unicode 字符 'FF' 所表示的初始字节顺序标记 来指示。按以下方式处理字节顺序标记:
进行解码时,UTF-16BE 和 UTF-16LE charset 忽略字节顺序标记;进行编码时,不写入字节顺序标记。
进行解码时,UTF-16 charset 解释字节顺序标记,以指示流的字节顺序,但是如果没有字节顺序标记,则默认使用 Big Endian;进行编码时,使用 Big Endian 字节顺序并写入 Big Endian 字节顺序标记。
在任何情况中,在解码操作的开始读取字节顺序标记时,将在结果字符序列中忽略该标记。字节顺序标记出现在输入序列的第一个元素之后时,由于使用相同的代码表示零宽度不间断空格,所以不忽略该标记。
posted on 2007-05-06 19:50
wqwqwqwqwq 阅读(611)
评论(0) 编辑 收藏 所属分类:
Simple Java