随笔 - 35  文章 - 21  trackbacks - 0
<2010年4月>
28293031123
45678910
11121314151617
18192021222324
2526272829301
2345678

常用链接

留言簿

随笔分类

随笔档案

文章分类

搜索

  •  

最新评论

阅读排行榜

评论排行榜


一 基本概念
这篇文章比较清楚地讲述了字符集和编码的基本概念
http://www.regexlab.com/zh/encoding.htm

摘抄:

各个国家和地区所制定的不同 ANSI 编码标准中,都只规定了各自语言所需的“字符”。比如:汉字标准(GB2312)中没有规定韩国语字符怎样存储。这些 ANSI 编码标准所规定的内容包含两层含义:

  1. 使用哪些字符。也就是说哪些汉字,字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。
  2. 规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码”。

各个国家和地区在制定编码标准的时候,“字符的集合”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如:GB2312, GBK, JIS 等,除了有“字符的集合”这层含义外,同时也包含了“编码”的含义。

UNICODE 字符集”包含了各种语言中使用到的所有“字符”。用来给 UNICODE 字符集编码的标准有很多种,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。


二 eclipse 中对于编码方式的设置

1 源文件的编码设置

preference -> general -> Content Types 
右边选择文件类型,右下更新 缺省编码方式

2 控制台的编码设置
Run -> Run configuration( 或 Debug configuration)
右边选项卡中 common, 一般为最后一项
在 console encoding 的 other 中选取需要的 编码方式

三 java 中的 编码转换

byte[] bytes = oldStr.getBytes(); //默认编码方式下的字节数组
String newStr = new String( bytes, "UTF-8" ); //转换成 UTF-8 编码下的字符串


 
posted on 2010-04-29 23:31 lincode 阅读(251) 评论(0)  编辑  收藏 所属分类: Java

只有注册用户登录后才能发表评论。


网站导航: