在JDK 1.4中存在一个有关编码的问题。简要描述如下:
通过参数-Dfile.encoding="charset"设定特定的字符集,但是并不会被当作Reader或者Writer的默认字符集使用。这个问题,有时候会引起隐藏较深的乱码问题。JDK 1.5和1.6中此问题已经不存在,所以,如果遇到在同样默认字符集系统上面运行,基于JDK 1.5正常,基于JDK 1.4则出现乱码问题的时候,注意一下是否由于此问题引起。
(原来JDK 1.4的这个bug在脑子中特别清晰,最近忘了,头两天遇到了,搞了半天~_~。发出来吧,也给大家提个醒)
测试程序如下:
1 public static void main(String[] args) {
2 try {
3 File file = new File("D:/text.txt");
4 file.createNewFile();
5 InputStreamReader reader = new InputStreamReader(new FileInputStream(file));
6 OutputStreamWriter writer = new OutputStreamWriter(new FileOutputStream(file));
7 System.out.println(reader.getEncoding());
8 System.out.println(writer.getEncoding());
9 } catch (IOException e) {
10 e.printStackTrace();
11 }
12 }
【执行环境】
Windows XP中文,默认系统字符集是GBK
启动参数设置:-Dfile.encoding=utf-8
在JDK 1.4.2版本上输出如下:
GBK
GBK
在JDK 1.5.0_09版本上输出如下:
UTF8
UTF8
由以上测试结果可以看出,在JDK 1.4上面,通过参数-Dfile.encoding="charset"设定特定的字符集,但是并不会被当作Reader或者Writer的默认字符集使用在JDK 1.4版本上面,此可能引起很多问题,例如read的部分是由于某开源库完成,则内部实现可能强制采用了-Dfile.encoding的配置;输出由我们自己完成,则默认的writer并不会默认采用-Dfile.encoding的设置,这样解码和编码用的字符集就不一致,可能就会引起乱码问题。
简而言之,在JDK 1.4上开发,在利用字符流编解码需要依赖-Dfile.encoding设置的时候,要注意此问题。
附加说明:
1、可以对InputStreamReader和OutputStreamWriter两个wrapper设定明确的编辑码字符集
2、如果像和当前系统的-Dfile.encoding设置保持绝对一直,可以将System.getProperty("file.encoding")传入InputStreamReader和OutputStreamWriter
本博客中的所有文章、随笔除了标题中含有引用或者转载字样的,其他均为原创。转载请注明出处,谢谢!