html parser 在处理 一些网页的时候,会出现乱码'3f3f' .
    问题在于 页面的charset=gb2312 ,而 页面中有gbk 的码 ,比如 'fb9c'.
    代码可以验证,
        byte[] gbchar = new byte[2];
        gbchar[0]=(byte) 0xfb;
        gbchar[1]=(byte) 0x9c;
        System.out.print(new String(gbchar,"gbk"));
        System.out.print(new String(gbchar,"gb2312"));

    不过,我并没有解决这个问题。



西津渡