小菜毛毛技术分享

与大家共同成长

:: 管理

164 Posts :: 141 Stories :: 94 Comments :: 0 Trackbacks

一、前言

用 Java解析XML文档，最常用的有两种方法：使用基于事件的XML简单API（Simple API for XML）称为SAX和基于树和节点的文档对象模型（Document Object Module）称为DOM。Sun公司提供了Java API for XML Parsing（JAXP）接口来使用SAX和DOM，通过JAXP，我们可以使用任何与JAXP兼容的XML解析器。

JAXP接口包含了三个包：

（1） org.w3c.dom W3C推荐的用于XML标准规划文档对象模型的接口。

（2） org.xml.sax 用于对XML进行语法分析的事件驱动的XML简单API（SAX）

（3） javax.xml.parsers解析器工厂工具，程序员获得并配置特殊的特殊语法分析器。

二、前提

DOM编程不要其它的依赖包，因为JDK里自带的JDK里含有的上面提到的org.w3c.dom、org.xml.sax 和javax.xml.parsers包就可以满意条件了。

三、使用SAX解析XML文档

SAX是基于事件的简单API，同样的我们也是用一个最简单的例子来看看SAX是如何解析XML的

先来看看我们要解析的XML代码吧

<?xml version="1.0" encoding="gb2312"?>

<books>

<name addr="address">rjzjh</name>

<price>jjjjjj</price>

</book>

</books>

简单的不能再简单了。但是该有的都有了，根元素、属性、子节点。好了，能反应问题就行了，下面来看看解析这个XML文件的Java代码吧！

1 public class SaxParse {

2 public SaxParse(){

3 SAXParserFactory saxfac=SAXParserFactory.newInstance();

4 try {

5 SAXParser saxparser=saxfac.newSAXParser();

6 InputStream is=new FileInputStream("bin/library.xml");

7 saxparser.parse(is,new MySAXHandler());

8 } catch (ParserConfigurationException e) {

9 e.printStackTrace();

10 } catch (SAXException e) {

11 e.printStackTrace();

12 } catch (FileNotFoundException e) {

13 e.printStackTrace();

14 } catch (IOException e) {

15 e.printStackTrace();

16 }

17 }

18 public static void main(String[] args) {

19 new SaxParse();

20 }

21 }

这段代码比较短，因为SAX是事件驱动的，它的大部分实现在在另一个Java文件中，先别管另一个文件，我们来一个个地分析吧！

（1）得到SAX解析器的工厂实例

3 SAXParserFactory saxfac=SAXParserFactory.newInstance();

这是一个javax.xml.parsers.SAXParserFactory类的实例

（2）从SAX工厂实例中获得SAX解析器

5 SAXParser saxparser=saxfac.newSAXParser();

使用javax.xml.parsers.SAXParserFactory工厂的newSAXParser()方法

（3）把要解析的XML文档转化为输入流，以便DOM解析器解析它

6 InputStream is=new FileInputStream("bin/library.xml");

InputStream是一个接口。

（4）解析XML文档

7 saxparser.parse(is,new MySAXHandler());

后面就不用看了，都是些没用的代码（相对而言），够简单的吧！

注意了，我们新建了一个实例new MySAXHandler()这个实例里面又有什么东西呢？

这个实例就是SAX的精华所在。我们使用SAX解析器时，必须实现内容处理器ContentHandler接口中的一些回调方法，然而我们不须要全部地实现这些方法，还好，我们有org.xml.sax.helpers.DefaultHandler类，看它的类申明：

public class DefaultHandler

implements EntityResolver, DTDHandler, ContentHandler, ErrorHandler

实现了这么多接口啊，其它的先不管了，至少它实现了ContentHandler这一接口。

好了，看看这个类有些什么吧？下面是它的Java代码！

public class MySAXHandler extends DefaultHandler {

boolean hasAttribute=false;

Attributes attributes=null;

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#startDocument()

public void startDocument() throws SAXException {

System.out.println("文档开始打印了");

}

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#endDocument()

public void endDocument() throws SAXException {

System.out.println("文档打印结束了");

}

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#startElement(java.lang.String, java.lang.String, java.lang.String, org.xml.sax.Attributes)

public void startElement(String uri, String localName, String qName,

Attributes attributes) throws SAXException {

if(qName.equals("books")){

return;

}

if(qName.equals("book")){

System.out.println(attributes.getQName(0)+attributes.getValue(0));

}

if(attributes.getLength()>0){

this.attributes=attributes;

this.hasAttribute=true;

}

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#endElement(java.lang.String, java.lang.String, java.lang.String)

public void endElement(String uri, String localName, String qName)

throws SAXException {

if(hasAttribute&&(attributes!=null)){

for(int i=0;i<attributes.getLength();i++){

System.out.println(attributes.getQName(0)+attributes.getValue(0));

}

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#characters(char[], int, int)

public void characters(char[] ch, int start, int length)

throws SAXException {

System.out.println(new String(ch,start,length));

}

不要看它一大堆，我一一分解给大家看。我们说SAX是基于事件的API，我们这个类实到了ContentHandler接口中的如下方法：

（1）startDocument() 用于处理文档解析开始事件

public void startDocument() throws SAXException {

System.out.println("文档开始打印了");

}

（2）endDocument() 用于处理文档解析结束事件

public void endDocument() throws SAXException {

System.out.println("文档打印结束了");

}

（3）startElement 用于处理元素开始事件

public void startElement(String uri, String localName, String qName,

Attributes attributes) throws SAXException {

if(qName.equals("books")){

return;

}

if(qName.equals("book")){

System.out.println(attributes.getQName(0)+attributes.getValue(0));

}

if(attributes.getLength()>0){

this.attributes=attributes;

this.hasAttribute=true;

}

第二个参数String qName表示这个元素的名字，如：

根节点 <books></books> 它的qName为“books”

最底层节点 <price>jjjjjj</price> 它的qName为“price”

知道这一点上面程序就好解释了，当遇到根元素“books”时就什么也不做跳过，当遇到“book”元素时就打出它的属性（它只有一个属性<book email="zhoujunhui"></book>）。

当是其它节点时（这下只剩下最底层的两个节点“name”和“price”了），就把它的属性取出来存到this.attributes域中，以后中元素结束事件好处理。

（4）endElement 用于处理元素结束事件

public void endElement(String uri, String localName, String qName)

throws SAXException {

if(hasAttribute&&(attributes!=null)){

for(int i=0;i<attributes.getLength();i++){

System.out.println(attributes.getQName(0)+attributes.getValue(0));

}

代码的作用是如果这个元素的属性不为空（hasAttribute&&(attributes!=null)），就把它们打印出来。

（5）characters(char[] ch, int start, int length) 处理元素字符的内容

public void characters(char[] ch, int start, int length)

throws SAXException {

System.out.println(new String(ch,start,length));

}

我们只用了这么几个事件，其它还有其的的一些事件，我们只要看一下ContentHandler这个接口就行了，如：

（6）startPrefixMapping(String prefix,String URI) 处理前缀映射开始事件，参数表示前缀名称和所指向的URI

（7）endPrefixMapping(String prefix,String URI) 处理前缀映射结束事件，参数表示前缀名称和所指向的URI

（8）ignorableWhitespace(Char[] ch,int start,int length) 处理元素中可忽略的空格

（9）processingInstruction(String target,String data) 处理解析中产生的处理指令事件。

posted on 2010-03-17 16:20 小菜毛毛阅读(2482) 评论(0) 编辑收藏所属分类: XML

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问
相关文章: SAX解析XML例子使用SAX解析XML XML的接口标准DOM与SAX的区别

小菜毛毛技术分享

常用链接

留言簿(15)

我参与的团队

随笔分类

随笔档案

文章分类

文章档案

新闻档案

收藏夹

搜索

最新评论

阅读排行榜

评论排行榜