html parser 在处理 一些网页的时候,会出现乱码'3f3f' .
问题在于 页面的charset=gb2312 ,而 页面中有gbk 的码 ,比如 'fb9c'.
代码可以验证,
byte[] gbchar = new byte[2];
gbchar[0]=(byte) 0xfb;
gbchar[1]=(byte) 0x9c;
System.out.print(new String(gbchar,"gbk"));
System.out.print(new String(gbchar,"gb2312"));
不过,我并没有解决这个问题。
西津渡