参考资料:(4个都是好资料)
Dom4j 编码问题彻底解决 作者:lonsen
http://www.5inet.net/Develop/Java/036579,Dom4j_BianMaWenDiCheDeJieJue.aspx
“中文问题没商量”之Dom4j中的编码问题
作者: 盛忠良
http://blog.lupaworld.com/blog/htm/do_showone/tid_2261.html
JAVA编码问题的一些理解
http://www.jspcn.net/htmlnews/11049393353751902.html
用dom4j解析中文字符时,出现org.dom4j.DocumentException: Invalid byte 1 of 1-byte UTF-8 sequence.各位帮小弟看看
http://dev.9983.com/ku/5403/4683267.asp
自己的总结:
1、“org.dom4j.DocumentException: Invalid byte 1 of 1-byte UTF-8 sequence.”异常分析和解决:
分析:
该异常由下面的reader.read(file);语句抛出:
SAXReader reader = new SAXReader();
Document doc = reader.read(file);
产生这个异常的原因是:
所读的xml文件实际是GBK或者其他编码的,而xml内容中却用<?xml version="1.0" encoding="utf-8"?>指定编码为utf-8,所以就报异常了!
注释:参考网上的《Java/J2EE中文问题终极解决之道》一文,编码问题原因应该是:操作系统编码为GBK,而xml指定为utf-8,SAXReader使用系统的默认编码GBK,所以存在需要转换编码的问题,也就自然会出现乱码了!解决:让文件编码和java 操作该文件的接口的编码一致;
解决:
情况一:该xml文件由dom4j生成;
解决方法:用 org.dom4j.io.XMLWriter xmlWriter = new org.dom4j.io.XMLWriter(
new FileOutputStream(fileName));
代替
xmlWriter = new XMLWriter(new FileWriter(fileName));
,指定编码为utf-8生成xml文件;
详细参考资料1:
Dom4j 编码问题彻底解决 作者:lonsen
http://www.5inet.net/Develop/Java/036579,Dom4j_BianMaWenDiCheDeJieJue.aspx
情况二:解析从jsp页面中读取到的用户输入的xml描述内容时,reader.read()抛出异常;
解决方法:
调用read前先把xml内容转为utf-8编码:(使用支持编码格式的函数)
public void validate(FacesContext context, UIComponent component, Object obj)
throws ValidatorException {
String xmldescription = (String) obj;
byte[] bytes =xmldescription.getBytes();
RelationXmlParser.isXmlOK("E:\\jiangcm\\templateXMLSchema.xsd",bytes);
……
}
public static boolean isXmlOK(String xsdFile, byte[] tagetXml) throws SAXException, IOException, DocumentException
{
SAXReader reader = new SAXReader();
……
InputStream in = new ByteArrayInputStream(tagetXml);
InputStreamReader utf8In=new InputStreamReader(in,"utf-8");
……
}