用JAXP解析XML文档

Java有多种方法可以分析XML文档，你可以选择现在已经成熟的标准技术，比如DOM和SAX，或者你可以选择专用于处理XML的Java API (Java API for XML Processing，JAXP)。

JAXP是一种专门提供XML文档解析的Java接口，下面我们就来研究一下如何使用Apache Xerces-2 解析器来实现JAXP。

工厂模式

JAXP提供了一种DOM及SAX方式的解析器来处理XML文档，也就是工厂模式。你选择不同的工厂类就会有不同的处理方法。工厂类实际上是一个标准设计模式，你可以根据需要自行修改。

利用JAXP，你可以使用DocumentBuilderFactory来建立自己的DocumentBuilder类，或者使用SAXParserFactory来建立自己的SAXParser类。不同之处就在于DOM解析器是将整个文档读入内存并允许你以随机方式读取文档，而SAX解析器是通过呼叫句柄来解释XML文档数据的。下面我们仔细研究一下DocumentBuilder类。

DocumentBuilder类

通过在DocumentBuilderFactory类中呼叫newDocumentBuilder方法，我们可以建立一个DocumentBuilder类。你可以通过呼叫newInstance方法来建立多个DocumentBuilderFactory类。

例如，你可以这样建立一个新的DocumentBuilderFactory类：

DocumentBuilderFactorydbfactory = DocumentBuilderFactory.newInstance();

一旦有了工厂类的句柄，你就可以马上建立一个DOM解析器的实例了。下面是建立代码：

DocumentBuilder builder = dbfactory. newDocumentBuilder();

这样我们就建立了一个真正的DocumentBuilder类的实例。为了解析文档，你必须调用DocumentBuilder类的解析方法。解析方法会返回一个Document对象，就是你要操作的XML文档。

Listing A实现了一个简单的利用DocumentBuilderFactory和DocumentBuilder类的方法：

Listing A:

JAXPSample.java
import javax.xml.parsers.*;
import org.w3c.dom.*;

public class JAXPSample {

  public static void main(String[] args) {
    String filename = "sample.xml";

    try {
      DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
      DocumentBuilder parser = factory.newDocumentBuilder();
      Document d = parser.parse(filename);
    }
    catch (Exception e) {
      System.err.println("Exception: " + e.getMessage());
    }

  }
}

DocumentBuilder类其实就是一个DOM解析器。利用JAXP的DocumentBuilder类的优势就在于它比其他XML解析器更轻便。

真实的文档

当通过DocumentBuilder接口使用DOM时，解析器会返回一个Document类。这个Document类很重要，因为它是完全符合W3C标准的，这意味这你可以将这个Document类和其他DOM解析器良好的结合起来。

例如你可以通过以下代码找回元素值：

String getXMLValue(Document doc, String name) {
     NodeListnlist=doc.getElementsByTagName(name);
     String value = nlist.item(0).getFirstChild().getNodeValue();
     return value;
}

这个方法用来寻找文档内与字符串一致的子节点。

以Sun公司的JAXP为例来看看其中和DOM相关的包:

DOM包结构

　　 org.w3c.com：定义了DOM的接口。这是w3c所指制定的DOM规范，因为DOM规范是与语言无关的，因而其中只是定义了接口，而没有实现任何地类。任何具体的DOM实现需要有其它的类库给出。

　　 javax.xml.parser：定义了DocumentBuilderFactory类DocumentBuilder类。编程时用DocumentBuilderFactory来生成一个具体的和具体的类库相联系的DocumentBuilder类的实例，然后再由这个DocumentBuilder对象来生成一个Document实例。Document对象中就包含了DOM的树模型结构，是DOM模型的根。同SAXParserFactory一样，具体的DocumentBuilder对象的建立，取决于一个环境变量javax.xml.parsers.DocumentBuilderFactory的值，同样的，也可以直接把类名传递给DocumentBuilderFactory来建立一个DocumentBuilder。

　　 com.sun.xml.tree：Sun的Java XML的DOM实现，他对标准的DOM提供了一些扩展，其中大部分的东西并不是DOM标准。包括了XMLDocument，ElementNode, XMLDocumentBuilder和TreeWalker等类。XMLDocument类实现了DOM的Document界面，它同样也提供了静态的工厂方法来建立一个Document对象。ElementNode类代表了在一个DOM树中的每一个节点元素，并且它经常被继承，来实现一些自定的功能。而XMLDocumentBuilder实际上是一个DocumentHandler类型的类，也就是说，它接受一个SAX解析器传递过来的事件，然后根据这些事件来在内存中建立一个DOM模型。

DOM处理过程

　　 DOM的处理过程相对SAX而言要简单些，先用DocumentBuilderFactory的静态方法newInstance()建立一个DocumentBuilderFactory的实例，然后用它的newDocumentBuilder()方法建立一个DocumentBuilder。然后可以用DocumentBuilder的parser()方法来解析一个XML文档并建立DOM模型。在JAXP中还提供了更为方便的功能扩展，就是使用XMLDocument。你可以为一个SAX解析器注册一个事件处理器XMLDocumentBuilder，在解析过后，可以调用XMLDocumentBuilder的getDocument()方法就可以把一个外在地XML文档转换成一个内存中的DOM树了，并生成一个Document(XMLDocument)对象，后面的工作，就是调用XMLDocument对象和ElementNode对象的各个方法来对DOM树进行操作了。最后，还可以调用XMLDocument的wirte()方法来把DOM树输出为XML文件。因为在标准的DOM模型中并没有提供与write()相类似的方法，所以要处理输出的话，用XMLDocument会更方便些。

实例DOM

　　下面我们可以来看看例子了。

首先当然是import语句：

import javax.xml.parsers.DocumentBuilderFactory;　

import javax.xml.parsers.FactoryConfigurationError;　

import javax.xml.parsers.ParserConfigurationException;

import javax.xml.parsers.DocumentBuilder;
　　为了能给你更多的印象，我详细内出了所有的类，实际上你只需要一句就可以了：

import javax.xml.parsers.*;

你还需要的是W3C对DOM和DOM例外的定义：

import org.w3c.dom.Document; import org.w3c.dom.DOMException;
还有一些其他的用来进行例外和I/O处理的类：

import org.xml.sax.SAXException;　

import org.xml.sax.SAXParseException;

import java.io.File;

import java.io.IOException;

因为要输出XML文档，所以还要引入XMLDocument：

import com.sun.xml.tree.XmlDocument;　

public class DomEcho{

在程序逻辑中，因为要处理DOM模型，所以当然首先应该申明一个Document对象：

static Document document;

public static void main (String argv [])

{

if (argv.length != 1) {

　　　　　　　　　　　 System.err.println ("Usage: java DomEcho filename");

　　　　　　　　　　　 System.exit (1);

　　　　　　　 }
　　用DocumentBuilderFactory类的静态方法newInstance()来创建一个工厂实例，之所以称为工厂，是由于再这儿应用到了设计模式（Design Pattern）中的工厂模式，实际上在Java类库中设计模式的范例随处可见，如果能够对设计模式有一些了解，就会很容易为Java庞杂的类库理出一条条脉络分明的经线。
　　　　　　　 DocumentBuilderFactory factory =

　　　　　　　　　　DocumentBuilderFactory.newInstance();

　　　　　　　 try {

　　　　　　　　　　 DocumentBuilder builder = factory.newDocumentBuilder();

　　　　　　　　　　 document = builder.parse( new File(argv[0]) );
　　前面说过，DOM标准模型中并没有定义输出的接口，因而如果需要进行文档输出的话，就需要用到JAXP的扩展，使用到XmlDocument。这儿有一个较为简便的方法，就是用强制类型转换，把一个Document类转换成XmlDocument，然后，就可以使用XmlDocument的write()方法了:
　　　　　　　　　　 XmlDocument xdoc = (XmlDocument) document;

　　　　　　　　　　 xdoc.write (System.out);
　　在后面的都是例外的处理了，在DOM中虽然有定义了DOMException，但是DOMException只是用在遍历和操作DOM树时引发的例外。在解析文档和初始化解析器时所引发的例外，还是借助于SAX中的例外处理方法，以使程序上具有一致性：

　　　　　　　 } catch (SAXParseException spe) {

　　　　　　　　　　　　// 处理解析过程中生成的例外

　　　　　　　　　　 System.out.println ("\n** Parsing error"

　　　　　　　　　　　　　　+ ", line " + spe.getLineNumber ()

　　　　　　　　　　　　　 + ", uri " + spe.getSystemId ());

　　　　　　　　　　System.out.println("　　 " + spe.getMessage() );

　　　　　　　　　　 Exception　 x = spe;

　　　　　　　　　　 if (spe.getException() != null)

　　　　　　　　　　　　　　 x = spe.getException();

　　　　　　　　　　 x.printStackTrace();

　　　　　　　 } catch (SAXException sxe) {

　　　　　　　　　　 // 处理一般的程序例外或者解析器初始化时引发的例外

　　　　　　　　　　 Exception　 x = sxe;

　　　　　　　　　　 if (sxe.getException() != null)

　　　　　　　　　　　　　　 x = sxe.getException();

　　　　　　　　　　 x.printStackTrace();

　　　　　　　 } catch (IOException ioe) {

　　　　　　　　　　 // IO例外

　　　　　　　　　　 ioe.printStackTrace();

　　　　　　　}

　　　 }

　　这而对DOM讲的比较简略，但是基本的程序结构我们已经可以从中看出来了。

DOM jdk帮助

posted on 2007-08-17 09:36 JavaPoint 阅读(1153) 评论(0) 编辑收藏所属分类: Java

工厂模式

DocumentBuilder类

真实的文档

常用链接

留言簿(4)

随笔分类

随笔档案

文章分类

ArcGis

搜索

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: ArcGis Server 中如何在Task中实现下拉列表和 checkbox 和 radiobutton.（完整例子）教程将持续推出了解 Oracle ADF：入门示例 WTP Tutorials - JavaServer Faces Tools Tutorial java dom解析xml 用JAXP解析XML文档