Java 关于中文乱码问题的解决方案与经验

一、字节和unicode

Java内核是unicode的，就连class文件也是，但是很多媒体，包括文件/流的保存方式是使用字节流的。因此Java要对这些字节流经行转化。 char是unicode的，而byte是字节。Java中byte/char互转的函数在sun.io的包中间有。其中 ByteToCharConverter类是中调度，可以用来告诉你，你用的convertor。其中两个很常用的静态函数是：

public static ByteToCharConverter getDefault();

public static ByteToCharConverter getConverter(String encoding);

如果你不指定converter，则系统会自动使用当前的encoding,gb平台上用gbk,en平台上用8859_1。

byte ——〉char：

"你"的gb码是：0xc4e3 ,unicode是0x4f60

String encoding = "gb2312";

byte b[] = {(byte)''"u00c4'',(byte)''"u00e3''};

ByteToCharConverter converter = ByteToCharConverter.getConverter(encoding);

char c[] = converter.convertAll(b);

for (int i = 0; i < c.length; i++) {

System.out.println(Integer.toHexString(c[i]));

}

结果是什么？0x4f60

如果encoding ="8859_1"，结果又是什么？0x00c4,0x00e3（这表明8859_1是以字节为单位的）

如果代码改为：

byte b[] = {(byte)''"u00c4'',(byte)''"u00e3''};

ByteToCharConverter converter = ByteToCharConverter. getDefault();

char c[] = converter.convertAll(b);

for (int i = 0; i < c.length; i++) {

System.out.println(Integer.toHexString(c[i]));

}

结果将又是什么？

这就要根据平台的编码而定。

char ——〉byte：

String encoding = "gb2312";

char c[] = {''"u4f60''};

CharToByteConverter converter = CharToByteConverter.getConverter(encoding);

byte b[] = converter.convertAll(c);

for (int i = 0; i < b.length; i++) {

System.out.println(Integer.toHexString(b[i]));

}

结果是什么？0x00c4,0x00e3

如果encoding ="8859_1"，结果又是什么？0x3f

如果代码改为

String encoding = "gb2312";

char c[] = {''"u4f60''};

CharToByteConverter converter = CharToByteConverter.getDefault();

byte b[] = converter.convertAll(c);

for (int i = 0; i < b.length; i++) {

System.out.println(Integer.toHexString(b[i]));

}

结果将又是什么？还是根据平台的编码而定。

很多中文问题就是从这两个最简单的类派生出来的。而却有很多类不直接支持把encoding输入，这给我们带来诸多不便。很多程序难得用encoding了，直接用default的encoding，这就给我们移植带来了很多困难。

二、utf-8

utf-8是和unicode一一对应的，其实现很简单：

7位的unicode: 0 _ _ _ _ _ _ _

11位的unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _

16位的unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _

21位的unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _

大多数情况是只使用到16位以下的unicode:

"你"的gb码是：0xc4e3 ,unicode是0x4f60

0xc4e3的二进制：

1100 ，0100 ，1110 ，0011

由于只有两位我们按照两位的编码来排，但是我们发现这行不通，因为第７位不是0因此，返回"?"

0x4f60的二进制：

0100 ，1111 ，0110 ，0000

我们用utf-8补齐，变成：

1110 ，0100 ，1011 ，1101 ，1010 ，0000

e4--bd-- a0

于是返回：0xe4,0xbd,0xa0。

三、string和byte[]

string其实核心是char[],然而要把byte转化成string，必须经过编码。string.length()其实就是char数组的长度，如果使用不同的编码，很可能会错分，造成散字和乱码。例如：

String encoding = “”;

byte [] b={(byte)''"u00c4'',(byte)''"u00e3''};

String str=new String(b,encoding);

如果encoding=8859_1，会有两个字，但是encoding=gb2312只有一个字这个问题在处理分页是经常发生。

四、Reader,Writer / InputStream,OutputStream

Reader和Writer核心是char，InputStream和OutputStream核心是byte。但是Reader和Writer的主要目的是要把char读/写InputStream/OutputStream。例如：

文件test.txt只有一个"你"字，0xc4,0xe3

String encoding = "gb2312";

InputStreamReader reader = new InputStreamReader(new FileInputStream(

"text.txt"), encoding);

char c[] = new char[10];

int length = reader.read(c);

for (int i = 0; i < length; i++) {

System.out.println(c[i]);

}

结果是什么？是"你"。如果encoding ="8859_1"，结果是什么？"??"两个字符，表示不认识。反过来的例子自己做。

五、我们要对Java的编译器有所了解：

Javac ?encoding

我们常常没有用到encoding这个参数。其实encoding这个参数对于跨平台的操作是很重要的。如果没有指定encoding，则按照系统的默认encoding,gb平台上是gb2312，英文平台上是iso8859_1。Java的编译器实际上是调用 sun.tools.Javac.main的类，对文件进行编译，这个类有compile函数中间有一个encoding的变量,-encoding的参数其实直接传给encoding变量。编译器就是根据这个变量来读取Java文件的，然后把用utf-8形式编译成class文件。例子代码：

String str = "你";

FileWriter writer = new FileWriter("text.txt");

write.write(str);

writer.close();

如果用gb2312编译，你会找到e4 bd a0的字段；

如果用8859_1编译， 00c4 00e3的二进制：

0000，0000 ，1100，0100 ，0000，0000 ，1110，0011

因为每个字符都大于7位，因此用11位编码：

1100，0001，1000，0100，1100，0011，1010，0011

c1-- 84--　c3--　 a3

你会找到c1 84 c3 a3

但是我们往往忽略掉这个参数，因此这样往往会有跨平台的问题：

样例代码在中文平台上编译，生成zhclass

样例代码在英文平台上编译，输出enclass

(1) zhclass在中文平台上执行ok,但是在英文平台上不行

(2) enclass在英文平台上执行ok,但是在中文平台上不行

原因是：

(1) 在中文平台上编译后，其实str在运行态的char[]是0x4f60,　在中文平台上运行，filewriter的缺省编码是gb2312,因此 chartobyteconverter会自动用调用gb2312的converter,把str转化成byte输入到fileoutputstream 中，于是0xc4,0xe3放进了文件。但是如果是在英文平台下，chartobyteconverter的缺省值是8859_1, filewriter会自动调用8859_1去转化str,但是他无法解释，因此他会输出"?"

(2) 在英文平台上编译后，其实str在运行态的char[]是0x00c4 0x00e3, 在中文平台上运行，中文无法识别，因此会出现??；在英文平台上，0x00c4-->0xc4,0x00e3->0xe3，因此 0xc4,0xe3被放进了文件。

六、其它原因：

<%@ page contentType="text/html; charset=GBK" %>

设置浏览器的显示编码，如果response的数据是utf8编码，显示将是乱码，但是乱码和上述原因还不一样。

七、发生编码的地方：

1. 从数据库到Java程序 byte——〉char

2. 从Java程序到数据库 char——〉byte

3. 从文件到Java程序 byte——〉char

4. 从Java程序到文件 char——〉byte

5. 从Java程序到页面显示 char——〉byte

6. 从页面form提交数据到Java程序byte——〉char

7. 从流到Java程序byte——〉char

8. 从Java程序到流char——〉byte

可以使用配置过滤器的方法解决中文乱码的：

RequestFilter

net.golden.uirs.util.RequestFilter

charset

gb2312

RequestFilter

*.Jsp

public void doFilter(ServletRequest req, ServletResponse res,

FilterChain fChain) throws IOException, ServletException {

HttpServletRequest request = (HttpServletRequest) req;

HttpServletResponse response = (HttpServletResponse) res;

HttpSession session = request.getSession();

String userId = (String) session.getAttribute("userid");

req.setCharacterEncoding(this.filterConfig.getInitParameter("charset"));

// 设置字符集？

实际上是设置了byte ——〉char的encoding

try {

if (userId == null || userId.equals("")) {

if (!request.getRequestURL().toString().matches(

".*/uirs/logon/logon(Controller){0,1}""x2EJsp$")) {

session.invalidate();

response.sendRedirect(request.getContextPath() +

"/uirs/logon/logon.Jsp");

}

else {

// 看看是否具有信息上报系统的权限

if (!net.golden.uirs.util.UirsChecker.check(userId, "信息上报系统",

net.golden.uirs.util.UirsChecker.ACTION_DO)) {

if (!request.getRequestURL().toString().matches(

".*/uirs/logon/logon(Controller){0,1}""x2EJsp$")) {

response.sendRedirect(request.getContextPath() +

"/uirs/logon/logonController.Jsp");

}

catch (Exception ex) {

response.sendRedirect(request.getContextPath() +

"/uirs/logon/logon.Jsp");

}

fChain.doFilter(req, res);

}

posted on 2007-12-17 16:07 xyz 阅读(437) 评论(0) 编辑收藏所属分类: 网络文摘

architect-userguide

data vault

Data vault (DV) is a database modeling technique.

kettle

Pentaho Business Intelligence Platform Guides

The SQL Power Architect data modeling tool was created by data warehouse designers and has many unique features geared specifically for the data warehouse architect. It allows users to reverse-engineer existing databases, perform data profiling on source databases, and auto-generate ETL metadata.

CodeLite IDE 是一个强大的开源,跨平台的 C/C++整合开发环境. 支持包括 Windows、Linux 和 Mac 系统下运行

codelite官网

dev-c++

Dev-C++是一个C&C++开发工具，它是一款自由软件，遵守GPL协议。

GCC

GCC 原名为 GNU C 语言编译器（GNU C Compiler），因为它原本只能处理 C语言。GCC 很快地扩展，变得可处理 C++。之后也变得可处理 Fortran、Pascal、Objective-C、Java, 以及 Ada 与其他语言。

java

jquery

jQuery的文本注解插件

jQuery autosave plug-in:rikrikrik

jQuery Cycle Plugin

是一个图片翻转显示的 jQuery 插件。致力于添加影像的平稳过渡。它支持6个不同的过渡类型而且很容易使用。

jQuery Easing Plugin

jQuery Easing Plugin 是一个简单的为对象扩展高级属性和选项的jQuery插件。

jQuery Plugins (by malsup)

malsup 的 jquery插件。

textarea plugin


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: web.xml學習筆記区别.htm.html.dhtml.xhtml.shtm.shtml／ASP、JSP、PHP 如何使用Eclipse导入并运行源码实践中整理出tomcat集群和负载均衡 Tomcat集群与负载均衡 freemarker 点滴 freemarker 基本指令学习FreeMarker（一） acegi初体验 JSTL详解--EL表达式

留言簿

随笔档案(1)

文章分类(44)

文章档案(46)

收藏夹(1)

Adobe

AOP

API

appServer

BI

c

Cache

CMS

DB

eclipse

FreeMarker

hibernate

html5

ibatis

java

jquery

js

json

Linux

Log

mail server

mobile

mysql

oauth

openID

other

PHP

portal

report

Scheduler

schema

Security

SOA

spring

struts

UI原型设计

w3c

Wap

webservice

xml

供应链管理

博客链接

好网站

工作流

开源网

招聘

插件下载

操作系统

构建可伸缩的系统

构建工具

测试

游戏

源码托管

经营

资源

金融/财务

搜索

最新评论