一 基本概念
这篇文章比较清楚地讲述了字符集和编码的基本概念
http://www.regexlab.com/zh/encoding.htm
摘抄:
各个国家和地区所制定的不同 ANSI 编码标准中,都只规定了各自语言所需的“字符”。比如:汉字标准(GB2312)中没有规定韩国语字符怎样存储。这些 ANSI 编码标准所规定的内容包含两层含义:
- 使用哪些字符。也就是说哪些汉字,字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。
- 规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码”。
各个国家和地区在制定编码标准的时候,“字符的集合”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如:GB2312, GBK, JIS 等,除了有“字符的集合”这层含义外,同时也包含了“编码”的含义。
“UNICODE 字符集”包含了各种语言中使用到的所有“字符”。用来给 UNICODE 字符集编码的标准有很多种,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。
二 eclipse 中对于编码方式的设置
1 源文件的编码设置
preference -> general -> Content Types
右边选择文件类型,右下更新 缺省编码方式
2 控制台的编码设置
Run -> Run configuration( 或 Debug configuration)
右边选项卡中 common, 一般为最后一项
在 console encoding 的 other 中选取需要的 编码方式
三 java 中的 编码转换
byte[] bytes = oldStr.getBytes(); //默认编码方式下的字节数组
String newStr = new String( bytes, "UTF-8" ); //转换成 UTF-8 编码下的字符串
posted on 2010-04-29 23:31
lincode 阅读(250)
评论(0) 编辑 收藏 所属分类:
Java