随笔-18  评论-20  文章-0  trackbacks-0

Java有多种方法可以分析XML文档,你可以选择现在已经成熟的标准技术,比如DOM和SAX,或者你可以选择专用于处理XML的Java API (Java API for XML Processing,JAXP)。

JAXP是一种专门提供XML文档解析的Java接口,下面我们就来研究一下如何使用Apache Xerces-2 解析器来实现JAXP。

工厂模式

JAXP提供了一种DOM及SAX方式的解析器来处理XML文档,也就是工厂模式。你选择不同的工厂类就会有不同的处理方法。工厂类实际上是一个标准设计模式,你可以根据需要自行修改。

利用JAXP,你可以使用DocumentBuilderFactory来建立自己的DocumentBuilder类,或者使用SAXParserFactory来建立自己的SAXParser类。不同之处就在于DOM解析器是将整个文档读入内存并允许你以随机方式读取文档,而SAX解析器是通过呼叫句柄来解释XML文档数据的。下面我们仔细研究一下DocumentBuilder类。

DocumentBuilder类

通过在DocumentBuilderFactory类中呼叫newDocumentBuilder方法,我们可以建立一个DocumentBuilder类。你可以通过呼叫newInstance方法来建立多个DocumentBuilderFactory类。

例如,你可以这样建立一个新的DocumentBuilderFactory类:

DocumentBuilderFactorydbfactory = DocumentBuilderFactory.newInstance();

一旦有了工厂类的句柄,你就可以马上建立一个DOM解析器的实例了。下面是建立代码:

DocumentBuilder builder = dbfactory. newDocumentBuilder();

这样我们就建立了一个真正的DocumentBuilder类的实例。为了解析文档,你必须调用DocumentBuilder类的解析方法。解析方法会返回一个Document对象,就是你要操作的XML文档。

Listing A实现了一个简单的利用DocumentBuilderFactory和DocumentBuilder类的方法:

Listing A:

JAXPSample.java
import javax.xml.parsers.*;
import org.w3c.dom.*;

public class JAXPSample {

  public static void main(String[] args) {
    String filename = "sample.xml";
         
    try {
      DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
      DocumentBuilder parser = factory.newDocumentBuilder();
      Document d = parser.parse(filename);
    }
    catch (Exception e) {
      System.err.println("Exception: " + e.getMessage());
    }
  
  }
}

DocumentBuilder类其实就是一个DOM解析器。利用JAXP的DocumentBuilder类的优势就在于它比其他XML解析器更轻便。

真实的文档

当通过DocumentBuilder接口使用DOM时,解析器会返回一个Document类。这个Document类很重要,因为它是完全符合W3C标准的,这意味这你可以将这个Document类和其他DOM解析器良好的结合起来。

例如你可以通过以下代码找回元素值:

String getXMLValue(Document doc, String name) {     
     NodeListnlist=doc.getElementsByTagName(name);
     String value = nlist.item(0).getFirstChild().getNodeValue();
     return value;
}

这个方法用来寻找文档内与字符串一致的子节点。


 

以Sun公司的JAXP为例来看看其中和DOM相关的包:

DOM包结构

   org.w3c.com:定义了DOM的接口。这是w3c所指制定的DOM规范,因为DOM规范是与语言无关的,因而其中只是定义了接口,而没有实现任何地类。任何具体的DOM实现需要有其它的类库给出。

   javax.xml.parser:定义了DocumentBuilderFactory类DocumentBuilder类。编程时用DocumentBuilderFactory来生成一个具体的和具体的类库相联系的DocumentBuilder类的实例,然后再由这个DocumentBuilder对象来生成一个Document实例。Document对象中就包含了DOM的树模型结构,是DOM模型的根。同SAXParserFactory一样,具体的DocumentBuilder对象的建立,取决于一个环境变量javax.xml.parsers.DocumentBuilderFactory的值,同样的,也可以直接把类名传递给DocumentBuilderFactory来建立一个DocumentBuilder。

   com.sun.xml.tree:Sun的Java XML的DOM实现,他对标准的DOM提供了一些扩展,其中大部分的东西并不是DOM标准。包括了XMLDocument,ElementNode, XMLDocumentBuilder和TreeWalker等类。XMLDocument类实现了DOM的Document界面,它同样也提供了静态的工厂方法来建立一个Document对象。ElementNode类代表了在一个DOM树中的每一个节点元素,并且它经常被继承,来实现一些自定的功能。 而XMLDocumentBuilder实际上是一个DocumentHandler类型的类,也就是说,它接受一个SAX解析器传递过来的事件,然后根据这些事件来在内存中建立一个DOM模型。

DOM处理过程

   DOM的处理过程相对SAX而言要简单些,先用DocumentBuilderFactory的静态方法newInstance()建立一个DocumentBuilderFactory的实例,然后用它的newDocumentBuilder()方法建立一个DocumentBuilder。然后可以用DocumentBuilder的parser()方法来解析一个XML文档并建立DOM模型。在JAXP中还提供了更为方便的功能扩展,就是使用XMLDocument。你可以为一个SAX解析器注册一个事件处理器XMLDocumentBuilder,在解析过后,可以调用XMLDocumentBuilder的getDocument()方法就可以把一个外在地XML文档转换成一个内存中的DOM树了,并生成一个Document(XMLDocument)对象,后面的工作,就是调用XMLDocument对象和ElementNode对象的各个方法来对DOM树进行操作了。最后,还可以调用XMLDocument的wirte()方法来把DOM树输出为XML文件。因为在标准的DOM模型中并没有提供与write()相类似的方法,所以要处理输出的话,用XMLDocument会更方便些。

实例DOM

   下面我们可以来看看例子了。

首先当然是import语句:


   import javax.xml.parsers.DocumentBuilderFactory; 

   import javax.xml.parsers.FactoryConfigurationError; 

   import javax.xml.parsers.ParserConfigurationException;

   import javax.xml.parsers.DocumentBuilder;
   为了能给你更多的印象,我详细内出了所有的类,实际上你只需要一句就可以了:

import javax.xml.parsers.*;

你还需要的是W3C对DOM和DOM例外的定义:

import org.w3c.dom.Document; import org.w3c.dom.DOMException;
还有一些其他的用来进行例外和I/O处理的类:


   import org.xml.sax.SAXException; 

   import org.xml.sax.SAXParseException;

   import java.io.File;

   import java.io.IOException;



   因为要输出XML文档,所以还要引入XMLDocument:



   import com.sun.xml.tree.XmlDocument; 

   public class DomEcho{



   在程序逻辑中,因为要处理DOM模型,所以当然首先应该申明一个Document对象:



   static Document document;

   public static void main (String argv [])

   {

    if (argv.length != 1) {

               System.err.println ("Usage: java DomEcho filename");

               System.exit (1);

           }
   用DocumentBuilderFactory类的静态方法newInstance()来创建一个工厂实例,之所以称为工厂,是由于再这儿应用到了设计模式(Design Pattern)中的工厂模式,实际上在Java类库中设计模式的范例随处可见,如果能够对设计模式有一些了解,就会很容易为Java庞杂的类库理出一条条脉络分明的经线。
          DocumentBuilderFactory factory =

              DocumentBuilderFactory.newInstance();

           try {

              DocumentBuilder builder = factory.newDocumentBuilder();

              document = builder.parse( new File(argv[0]) );
   前面说过,DOM标准模型中并没有定义输出的接口,因而如果需要进行文档输出的话,就需要用到JAXP的扩展,使用到XmlDocument。这儿有一个较为简便的方法,就是用强制类型转换,把一个Document类转换成XmlDocument,然后,就可以使用XmlDocument的write()方法了:
             XmlDocument xdoc = (XmlDocument) document;

              xdoc.write (System.out);
   在后面的都是例外的处理了,在DOM中虽然有定义了DOMException,但是DOMException只是用在遍历和操作DOM树时引发的例外。在解析文档和初始化解析器时所引发的例外,还是借助于SAX中的例外处理方法,以使程序上具有一致性:

           } catch (SAXParseException spe) {

                // 处理解析过程中生成的例外

              System.out.println ("\n** Parsing error"

                 + ", line " + spe.getLineNumber ()

                 + ", uri " + spe.getSystemId ());

              System.out.println("   " + spe.getMessage() );

              Exception  x = spe;

              if (spe.getException() != null)

                  x = spe.getException();

              x.printStackTrace();

           } catch (SAXException sxe) {

              // 处理一般的程序例外或者解析器初始化时引发的例外

              Exception  x = sxe;

              if (sxe.getException() != null)

                  x = sxe.getException();

              x.printStackTrace();

           } catch (IOException ioe) {

              // IO例外

              ioe.printStackTrace();

           }

       }

   这而对DOM讲的比较简略,但是基本的程序结构我们已经可以从中看出来了。

 DOM jdk帮助

posted on 2007-08-17 09:36 JavaPoint 阅读(1146) 评论(0)  编辑  收藏 所属分类: Java

只有注册用户登录后才能发表评论。


网站导航: