lqxue

常用链接

统计

随笔 - 173
文章 - 1
评论 - 70
引用 - 0

book

Apache 重写规则的常见应用 (rewrite)
http://lamp.linux.gov.cn/Apache/ApacheMenu/rewrite/rewrite_guide.html http://www.eygle.com/digest/2005/09/apache_oeoeooaeuooa_rewrite.html http://bbs.phpres.com/archiver/tid-2093.html
c3p0 - JDBC3 Connection and Statement Pooling
十八春
林彪的这一生
林氏三兄弟
讲解数据库调优与程序员相关的几个方面

tools

经典强大的服务器软件Apache
linux的命令详解2
spring 、 struts 整合
在eclipse上配置svn
或http://dev2dev.bea.com.cn/techdoc/20060620822.html
如何在Windows Console下使用命令svn
通过 JAX-RPC 来处理异常
配置适用于正式使用环境下的Tomcat Web服务器双向SSL认证

java 编码研究感想

1、iso8859-1
属于单字节编码，最多能表示的字符范围是0-255，应用于英文系列。比如，字母'a'的编码为0x61=97。
很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用 iso8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，以gb2312编码为例，应该是"[u]d6d0 cec4[/u]"两个字符，使用iso8859-1编码的时候则将它拆开为4个字节来表示："[u]d6 d0 ce c4[/u]"（事实上，在进行存储的时候，也是以字节为单位处理的）。而如果是UTF编码，则是6个字节"[u]e4 b8 ad e6 96 87[/u]"。很明显，这种表示方法还需要以另一种编码为基础。
2、 GB2312/GBK
这就是汉子的国标码，专门用来表示汉字，是双字节编码，而英文字母和iso8859-1一致（兼容iso8859-1编码）。其中gbk编码能够用来同时表示繁体字和简体字，而gb2312只能表示简体字，gbk是兼容gb2312编码的。
3、 unicode
这是最统一的编码，可以用来表示所有语言的字符，而且是定长双字节（也有四字节的）编码，包括英文字母在内。所以可以说它是不兼容iso8859-1编码的，也不兼容任何编码。不过，相对于iso8859-1编码来说，uniocode编码只是在前面增加了一个0字节，比如字母'a'为"[u]00 61[/u]"。
需要说明的是，定长编码便于计算机处理（注意GB2312/GBK不是定长编码），而unicode又可以用来表示所有字符，所以在很多软件内部是使用unicode编码来处理的，比如java。
4、UTF
考虑到unicode编码不兼容iso8859-1编码，而且容易占用更多的空间：因为对于英文字母，unicode也需要两个字节来表示。所以 unicode不便于传输和存储。因此而产生了utf编码，utf编码兼容iso8859-1编码，同时也可以用来表示所有语言的字符，不过，utf编码是不定长编码，每一个字符的长度从1-6个字节不等。另外，utf编码自带简单的校验功能。一般来讲，英文字母都是用一个字节表示，而汉字使用三个字节。
注意，虽然说utf是为了使用更少的空间而使用的，但那只是相对于unicode编码来说，如果已经知道是汉字，则使用GB2312/GBK无疑是最节省的。不过另一方面，值得说明的是，虽然utf编码对汉字使用3个字节，但即使对于汉字网页，utf编码也会比unicode编码节省，因为网页中包含了很多的英文字符。
5、如果我们以一种能表示中文的编码格式（例如GBK、unicode）来保存中文到文件中，那么当我们用properties load时，只要load时的编码格式（默认8859-1）和你保存的文件的编码格式相同，那么就不会出现乱码。
6、之所以\u4F60这种形式支持国际化，是因为这种形式的内容无论那种编码都是支持的，当我们用properties.getProperty()时，这个方法会对key和value都进行转化一次，当其碰见这种码时，它就把他转化为unicode码后返回。所以，我们可以利用工具（例如：native2ascii ）把.properties文件转化成这种格式以方便我们支持国际化。

参考链接:
    1、http://www.blogjava.net/beike/archive/2006/04/29/44038.html
    2、http://tech.ccidnet.com/art/1077/20050704/279619_1.html
    3、http://linux.chinaunix.net/bbs/archiver/tid-896583.html

posted on 2007-05-29 13:37 lqx 阅读(188) 评论(0) 编辑收藏

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

lqxue

导航

留言簿(5)

随笔分类

文章分类

收藏夹

随笔档案

文章档案

相册

阅读排行榜

评论排行榜

常用链接

统计

book

tools

最新评论

java 编码研究感想