深入剖析JSP和Servlet对中文的处理(4)

给出如下结论：

　　在Class输出字符串前，会将Unicode的字符串按照某一种内码重新生成字节流，然后把字节流输入，相当于进行了一步“String.getBytes(???)”操作。???代表某一种字符集。

　　如果是Servlet，那么，这种内码就是在HttpServletResponse.setContentType()方法中指定的内码，也就是上文定义的＜Servlet-charset＞。

　　如果是JSP，那么，这种内码就是在＜%@ page contentType=""%＞中指定的内码，也就是上文定义的＜Jsp-charset＞。

　　如果是Java程序，那么，这种内码就是file.encoding中指定的内码，默认为ISO8859-1。

　　当输出对象是浏览器时

　　以流行的浏览器IE为例。IE支持多种内码。假如IE接收到了一个字节流“D6 D0 CE C4”，你可以尝试用各种内码去查看。你会发现用“简体中文”时能得到正确的结果。因为“D6 D0 CE C4”本来就是简体中文中“中文”两个字的编码。

　　OK，完整地看一遍。

　　JSP：源文件为GB2312格式的文本文件，且JSP源文件中有“中文”这两个汉字

　　如果指定了＜Jsp-charset＞为GB2312，转化过程如下表。

　　表4　Jsp-charset = GB2312时的变化过程

序号步骤说明结果

1 编写JSP源文件，且存为GB2312格式 D6 D0 CE C4
（D6D0=中 CEC4=文）

2 jspc把JSP源文件转化为临时JAVA文件，并把字符串按照GB2312映射到Unicode，并用UTF格式写入JAVA文件中 E4 B8 AD E6 96 87

3 把临时JAVA文件编译成CLASS文件 E4 B8 AD E6 96 87

4 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 4E 2D 65 87（在Unicode中4E2D=中 6587=文）

5 根据Jsp-charset=GB2312把Unicode转化为字节流 D6 D0 CE C4

6 把字节流输出到IE中，并设置IE的编码为GB2312（作者按：这个信息隐藏在HTTP头中） D6 D0 CE C4

7 IE用“简体中文”查看结果 “中文”（正确显示）

　　如果指定了＜Jsp-charset＞为ISO8859-1，转化过程如下表。

　　表5　Jsp-charset = ISO8859-1时的变化过程

序号步骤说明结果

1 编写JSP源文件，且存为GB2312格式 D6 D0 CE C4
（D6D0=中 CEC4=文）

2 jspc把JSP源文件转化为临时JAVA文件，并把字符串按照ISO8859-1映射到Unicode，并用UTF格式写入JAVA文件中 C3 96 C3 90 C3 8E C3 84

3 把临时JAVA文件编译成CLASS文件 C3 96 C3 90 C3 8E C3 84

4 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 00 D6 00 D0 00 CE 00 C4
（啥都不是！！！）

5 根据Jsp-charset=ISO8859-1把Unicode转化为字节流 D6 D0 CE C4

6 把字节流输出到IE中，并设置IE的编码为ISO8859-1（作者按：这个信息隐藏在HTTP头中） D6 D0 CE C4

7 IE用“西欧字符”查看结果乱码，其实是四个ASCII字符，但由于大于128，所以显示出来的怪模怪样

8 改变IE的页面编码为“简体中文” “中文”（正确显示）

　　奇怪了！为什么把＜Jsp-charset＞设成GB2312和ISO8859-1是一个样的，都能正确显示？因为表4表5中的第2步和第5步互逆，是相互“抵消”的。只不过当指定为ISO8859-1时，要增加第8步操作，殊为不便。

　　再看看不指定＜Jsp-charset＞时的情况。

　　表6　未指定Jsp-charset 时的变化过程

序号步骤说明结果

1 编写JSP源文件，且存为GB2312格式 D6 D0 CE C4
（D6D0=中 CEC4=文）

2 jspc把JSP源文件转化为临时JAVA文件，并把字符串按照ISO8859-1映射到Unicode，并用UTF格式写入JAVA文件中 C3 96 C3 90 C3 8E C3 84

3 把临时JAVA文件编译成CLASS文件 C3 96 C3 90 C3 8E C3 84

4 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 00 D6 00 D0 00 CE 00 C4

5 根据Jsp-charset=ISO8859-1把Unicode转化为字节流 D6 D0 CE C4

6 把字节流输出到IE中 D6 D0 CE C4

7 IE用发出请求时的页面的编码查看结果视情况而定。如果是简体中文，则能正确显示，否则，需执行表5中的第8步

　　Servlet：源文件为JAVA文件，格式是GB2312，源文件中含有“中文”这两个汉字

　　如果＜Compile-charset＞＝GB2312，＜Servlet-charset＞=GB2312

　　表7　Compile-charset=Servlet-charset=GB2312 时的变化过程

序号步骤说明结果

1 编写Servlet源文件，且存为GB2312格式 D6 D0 CE C4
（D6D0=中 CEC4=文）

2 用javac –encoding GB2312把JAVA源文件编译成CLASS文件 E4 B8 AD E6 96 87　（UTF）

3 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 4E 2D 65 87 (Unicode)

4 根据Servlet-charset=GB2312把Unicode转化为字节流 D6 D0 CE C4 (GB2312)

5 把字节流输出到IE中并设置IE的编码属性为Servlet-charset=GB2312 D6 D0 CE C4 (GB2312)

6 IE用“简体中文”查看结果 “中文”（正确显示）

　　如果＜Compile-charset＞＝ISO8859-1，＜Servlet-charset＞=ISO8859-1

　　表8　Compile-charset=Servlet-charset=ISO8859-1时的变化过程

序号步骤说明结果

1 编写Servlet源文件，且存为GB2312格式 D6 D0 CE C4
（D6D0=中 CEC4=文）

2 用javac –encoding ISO8859-1把JAVA源文件编译成CLASS文件 C3 96 C3 90 C3 8E C3 84　（UTF）

3 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 00 D6 00 D0 00 CE 00 C4

4 根据Servlet-charset=ISO8859-1把Unicode转化为字节流 D6 D0 CE C4

5 把字节流输出到IE中并设置IE的编码属性为Servlet-charset=ISO8859-1 D6 D0 CE C4 (GB2312)

6 IE用“西欧字符”查看结果乱码（原因同表5）

7 改变IE的页面编码为“简体中文” “中文”（正确显示）

　　如果不指定Compile-charset或Servlet-charset，其默认值均为ISO8859-1。

　　当Compile-charset=Servlet-charset时，第2步和第4步能互逆，“抵消”，显示结果均能正确。读者可试着写一下Compile-charset＜＞Servlet-charset时的情况，肯定是不正确的。

　　当输出对象是数据库时

　　输出到数据库时，原理与输出到浏览器也是一样的。本节只是Servlet为例，JSP的情况请读者自行推导。

　　假设有一个Servlet，它能接收来自客户端（IE，简体中文）的汉字字符串，然后把它写入到内码为ISO8859-1的数据库中，然后再从数据库中取出这个字符串，显示到客户端。

　　表9　输出对象是数据库时的变化过程（1）

序号步骤说明结果域

1 在IE中输入“中文” D6 D0 CE C4 IE

2 IE把字符串转变成UTF，并送入传输流中 E4 B8 AD E6 96 87

3 Servlet接收到输入流，用readUTF读取 4E 2D 65 87(unicode) Servlet

4 编程者在Servlet中必须把字符串根据GB2312还原为字节流 D6 D0 CE C4

5 编程者根据数据库内码ISO8859-1生成新的字符串 00 D6 00 D0 00 CE 00 C4

6 把新生成的字符串提交给JDBC 00 D6 00 D0 00 CE 00 C4

7 JDBC检测到数据库内码为ISO8859-1 00 D6 00 D0 00 CE 00 C4 JDBC

8 JDBC把接收到的字符串按照ISO8859-1生成字节流 D6 D0 CE C4

9 JDBC把字节流写入数据库中 D6 D0 CE C4

10 完成数据存储工作 D6 D0 CE C4 数据库

以下是从数据库中取出数的过程

11 JDBC从数据库中取出字节流 D6 D0 CE C4 JDBC

12 JDBC按照数据库的字符集ISO8859-1生成字符串，并提交给Servlet 00 D6 00 D0 00 CE 00 C4 (Unicode)

13 Servlet获得字符串 00 D6 00 D0 00 CE 00 C4 (Unicode) Servlet

14 编程者必须根据数据库的内码ISO8859-1还原成原始字节流 D6 D0 CE C4

15 编程者必须根据客户端字符集GB2312生成新的字符串 4E 2D 65 87
（Unicode）

Servlet准备把字符串输出到客户端

16 Servlet根据＜Servlet-charset＞生成字节流 D6D0 CE C4 Servlet

17 Servlet把字节流输出到IE中，如果已指定＜Servlet-charset＞，还会设置IE的编码为＜Servlet-charset＞ D6 D0 CE C4

18 IE根据指定的编码或默认编码查看结果 “中文”（正确显示） IE

　　解释一下，表中第4第5步和第15第16步是用红色标记的，表示要由编码者来作转换。第4、5两步其实就是一句话：“new String(source.getBytes("GB2312"), "ISO8859-1")”。第15、16两步也是一句话：“new String(source.getBytes("ISO8859-1"), "GB2312")”。亲爱的读者，你在这样编写代码时是否意识到了其中的每一个细节呢？

　　至于客户端内码和数据库内码为其它值时的流程，和输出对象是系统控制台时的流程，请读者自己想吧。明白了上述流程的原理，相信你可以轻松地写出来。

　　行文至此，已可告一段落了。终点又回到了起点，对于编程者而言，几乎是什么影响都没有。

　　因为我们早就被告之要这么做了。

　　以下给出一个结论，作为结尾。

　　1、在Jsp文件中，要指定contentType，其中，charset的值要与客户端浏览器所用的字符集一样；对于其中的字符串常量，不需做任何内码转换；对于字符串变量，要求能根据ContentType中指定的字符集还原成客户端能识别的字节流，简单地说，就是“字符串变量是基于＜Jsp-charset＞字符集的”；

　　2、在Servlet中，必须用HttpServletResponse.setContentType()设置charset，且设置成与客户端内码一致；对于其中的字符串常量，需要在Javac编译时指定encoding，这个encoding必须与编写源文件的平台的字符集一样，一般说来都是GB2312或GBK；对于字符串变量，与JSP一样，必须“是基于＜Servlet-charset＞字符集的”。

　　出处: CSDN
　　责任编辑: 方舟

posted on 2005-08-13 15:23 小海船阅读(103) 评论(0) 编辑收藏

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

licheng700

常用链接

留言簿(1)

随笔档案

文章档案

搜索

最新评论

阅读排行榜

评论排行榜

序号	步骤说明	结果
1	编写JSP源文件，且存为GB2312格式	D6 D0 CE C4 （D6D0=中 CEC4=文）
2	jspc把JSP源文件转化为临时JAVA文件，并把字符串按照GB2312映射到Unicode，并用UTF格式写入JAVA文件中	E4 B8 AD E6 96 87
3	把临时JAVA文件编译成CLASS文件	E4 B8 AD E6 96 87
4	运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码	4E 2D 65 87（在Unicode中4E2D=中 6587=文）
5	根据Jsp-charset=GB2312把Unicode转化为字节流	D6 D0 CE C4
6	把字节流输出到IE中，并设置IE的编码为GB2312（作者按：这个信息隐藏在HTTP头中）	D6 D0 CE C4
7	IE用“简体中文”查看结果	“中文”（正确显示）