Java有多种方法可以分析XML文档,你可以选择现在已经成熟的标准技术,比如DOM和SAX,或者你可以选择专用于处理XML的Java API (Java API for XML Processing,JAXP)。
JAXP是一种专门提供XML文档解析的Java接口,下面我们就来研究一下如何使用Apache Xerces-2 解析器来实现JAXP。
工厂模式
JAXP提供了一种DOM及SAX方式的解析器来处理XML文档,也就是工厂模式。你选择不同的工厂类就会有不同的处理方法。工厂类实际上是一个标准设计模式,你可以根据需要自行修改。
利用JAXP,你可以使用DocumentBuilderFactory来建立自己的DocumentBuilder类,或者使用SAXParserFactory来建立自己的SAXParser类。不同之处就在于DOM解析器是将整个文档读入内存并允许你以随机方式读取文档,而SAX解析器是通过呼叫句柄来解释XML文档数据的。下面我们仔细研究一下DocumentBuilder类。
DocumentBuilder类
通过在DocumentBuilderFactory类中呼叫newDocumentBuilder方法,我们可以建立一个DocumentBuilder类。你可以通过呼叫newInstance方法来建立多个DocumentBuilderFactory类。
例如,你可以这样建立一个新的DocumentBuilderFactory类:
DocumentBuilderFactorydbfactory = DocumentBuilderFactory.newInstance();
一旦有了工厂类的句柄,你就可以马上建立一个DOM解析器的实例了。下面是建立代码:
DocumentBuilder builder = dbfactory. newDocumentBuilder();
这样我们就建立了一个真正的DocumentBuilder类的实例。为了解析文档,你必须调用DocumentBuilder类的解析方法。解析方法会返回一个Document对象,就是你要操作的XML文档。
Listing A实现了一个简单的利用DocumentBuilderFactory和DocumentBuilder类的方法:
Listing A:
JAXPSample.java
import javax.xml.parsers.*;
import org.w3c.dom.*;
public class JAXPSample {
public static void main(String[] args) {
String filename = "sample.xml";
try {
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder parser = factory.newDocumentBuilder();
Document d = parser.parse(filename);
}
catch (Exception e) {
System.err.println("Exception: " + e.getMessage());
}
}
}
DocumentBuilder类其实就是一个DOM解析器。利用JAXP的DocumentBuilder类的优势就在于它比其他XML解析器更轻便。
真实的文档
当通过DocumentBuilder接口使用DOM时,解析器会返回一个Document类。这个Document类很重要,因为它是完全符合W3C标准的,这意味这你可以将这个Document类和其他DOM解析器良好的结合起来。
例如你可以通过以下代码找回元素值:
String getXMLValue(Document doc, String name) {
NodeListnlist=doc.getElementsByTagName(name);
String value = nlist.item(0).getFirstChild().getNodeValue();
return value;
}
这个方法用来寻找文档内与字符串一致的子节点。
以Sun公司的JAXP为例来看看其中和DOM相关的包:
DOM包结构
org.w3c.com:定义了DOM的接口。这是w3c所指制定的DOM规范,因为DOM规范是与语言无关的,因而其中只是定义了接口,而没有实现任何地类。任何具体的DOM实现需要有其它的类库给出。
javax.xml.parser:定义了DocumentBuilderFactory类DocumentBuilder类。编程时用DocumentBuilderFactory来生成一个具体的和具体的类库相联系的DocumentBuilder类的实例,然后再由这个DocumentBuilder对象来生成一个Document实例。Document对象中就包含了DOM的树模型结构,是DOM模型的根。同SAXParserFactory一样,具体的DocumentBuilder对象的建立,取决于一个环境变量javax.xml.parsers.DocumentBuilderFactory的值,同样的,也可以直接把类名传递给DocumentBuilderFactory来建立一个DocumentBuilder。
com.sun.xml.tree:Sun的Java XML的DOM实现,他对标准的DOM提供了一些扩展,其中大部分的东西并不是DOM标准。包括了XMLDocument,ElementNode, XMLDocumentBuilder和TreeWalker等类。XMLDocument类实现了DOM的Document界面,它同样也提供了静态的工厂方法来建立一个Document对象。ElementNode类代表了在一个DOM树中的每一个节点元素,并且它经常被继承,来实现一些自定的功能。 而XMLDocumentBuilder实际上是一个DocumentHandler类型的类,也就是说,它接受一个SAX解析器传递过来的事件,然后根据这些事件来在内存中建立一个DOM模型。
DOM处理过程
DOM的处理过程相对SAX而言要简单些,先用DocumentBuilderFactory的静态方法newInstance()建立一个DocumentBuilderFactory的实例,然后用它的newDocumentBuilder()方法建立一个DocumentBuilder。然后可以用DocumentBuilder的parser()方法来解析一个XML文档并建立DOM模型。在JAXP中还提供了更为方便的功能扩展,就是使用XMLDocument。你可以为一个SAX解析器注册一个事件处理器XMLDocumentBuilder,在解析过后,可以调用XMLDocumentBuilder的getDocument()方法就可以把一个外在地XML文档转换成一个内存中的DOM树了,并生成一个Document(XMLDocument)对象,后面的工作,就是调用XMLDocument对象和ElementNode对象的各个方法来对DOM树进行操作了。最后,还可以调用XMLDocument的wirte()方法来把DOM树输出为XML文件。因为在标准的DOM模型中并没有提供与write()相类似的方法,所以要处理输出的话,用XMLDocument会更方便些。
实例DOM
下面我们可以来看看例子了。
首先当然是import语句:
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.FactoryConfigurationError;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.DocumentBuilder;
为了能给你更多的印象,我详细内出了所有的类,实际上你只需要一句就可以了:
import javax.xml.parsers.*;
你还需要的是W3C对DOM和DOM例外的定义:
import org.w3c.dom.Document; import org.w3c.dom.DOMException;
还有一些其他的用来进行例外和I/O处理的类:
import org.xml.sax.SAXException;
import org.xml.sax.SAXParseException;
import java.io.File;
import java.io.IOException;
因为要输出XML文档,所以还要引入XMLDocument:
import com.sun.xml.tree.XmlDocument;
public class DomEcho{
在程序逻辑中,因为要处理DOM模型,所以当然首先应该申明一个Document对象:
static Document document;
public static void main (String argv [])
{
if (argv.length != 1) {
System.err.println ("Usage: java DomEcho filename");
System.exit (1);
}
用DocumentBuilderFactory类的静态方法newInstance()来创建一个工厂实例,之所以称为工厂,是由于再这儿应用到了设计模式(Design Pattern)中的工厂模式,实际上在Java类库中设计模式的范例随处可见,如果能够对设计模式有一些了解,就会很容易为Java庞杂的类库理出一条条脉络分明的经线。
DocumentBuilderFactory factory =
DocumentBuilderFactory.newInstance();
try {
DocumentBuilder builder = factory.newDocumentBuilder();
document = builder.parse( new File(argv[0]) );
前面说过,DOM标准模型中并没有定义输出的接口,因而如果需要进行文档输出的话,就需要用到JAXP的扩展,使用到XmlDocument。这儿有一个较为简便的方法,就是用强制类型转换,把一个Document类转换成XmlDocument,然后,就可以使用XmlDocument的write()方法了:
XmlDocument xdoc = (XmlDocument) document;
xdoc.write (System.out);
在后面的都是例外的处理了,在DOM中虽然有定义了DOMException,但是DOMException只是用在遍历和操作DOM树时引发的例外。在解析文档和初始化解析器时所引发的例外,还是借助于SAX中的例外处理方法,以使程序上具有一致性:
} catch (SAXParseException spe) {
// 处理解析过程中生成的例外
System.out.println ("\n** Parsing error"
+ ", line " + spe.getLineNumber ()
+ ", uri " + spe.getSystemId ());
System.out.println(" " + spe.getMessage() );
Exception x = spe;
if (spe.getException() != null)
x = spe.getException();
x.printStackTrace();
} catch (SAXException sxe) {
// 处理一般的程序例外或者解析器初始化时引发的例外
Exception x = sxe;
if (sxe.getException() != null)
x = sxe.getException();
x.printStackTrace();
} catch (IOException ioe) {
// IO例外
ioe.printStackTrace();
}
}
这而对DOM讲的比较简略,但是基本的程序结构我们已经可以从中看出来了。
DOM jdk帮助
posted on 2007-08-17 09:36
JavaPoint 阅读(1147)
评论(0) 编辑 收藏 所属分类:
Java