和风细雨

世上本无难事,心以为难,斯乃真难。苟不存一难之见于心,则运用之术自出。

XML(Extensible Markup Language )综述

XML的由来
XML是eXtensible Markup Language的缩写。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用
XML是现代程序中一个必不可少的组成部分,也是世界上发展最快的技术之一。它的主要目的是以结构化的方式来表示数据,在某些方面,XML也类似于数据库,提供数据的结构化视图。
XML(可扩展标记语言)是从称为SGML(标准通用标记语言)发展而来的,SGML的主要目的是定义使用标签来表示数据的标记语言的语法。基于SGML的重要语言之一就是著名的HTML.
标签由包围在一个小于号<和一个大于号>之间的文本组成,起始标签(tag)表示一个特定区域的开始,例如<start>;结束标签定义了一个区域的结束,除了在小于号之后紧跟一个斜线外和起始标签一致,例如</end>.举例说明标签如下:
<member id=“007”>邦德</member>中,左边的<member id=“007”>是起始标签,邦德是标签中的文字,007是属性Attribute, </member >是结束标签.

XML的发展

由于SGML中存在特殊而随意的语法(如标签的非嵌套使用),使得建立一个SGML语言的解析器成了一项艰巨的任务,这些困难导致了SGML一直停步不前.
XML通过相对严格的语法规定使得建立一个XML解析器要容易得多,这些语法包括:
1)任何起始标签都必须有一个结束标签。
2)可以采用另一种简化语法,可以在一个标签中同时表示起始和结束标签。这种语法是在大于符号前紧跟一个斜线/.如<tag />等同于<tag></tag>.
3)标签必须按照合适的顺序进行嵌套,在没有关闭内部节点之前不能关闭外部节点。
4)所有的特性都必须有值,特性的值周围应该加上双引号。

XML文档示例

<?xml version="1.0" encoding="GBK"?>

<members>
  <member name="Andy">
    <age>25</age>
    <title>JSE</title>
  </member>
  <member name="Bill">
    <age>35</age>
    <title>SSE</title>
  </member>
  <member name="Cindy">
    <age>45</age>
    <title>PM</title>
  </member>
  <member name="Douglas">
    <age>45</age>
    <title>GM</title>
  </member>
</members>

<?xml version=“1.0” encoding=“GBK”?>是XML序言,这一行代码告诉解析器文件将按XML规则进行解析, GBK制定了此文件的编码方式。
<members>是文档的根节点,一个XML中有且只有一个根节点,否则会造成解析失败。
<member name=“Andy”>。。。</member>是根节点下面的子节点,name是其特性,特性的值为Andy。这个子节点下面有age和title两个子节点。

XML的用途

以文本的形式存储数据,这样的形式适于机器阅读,对于人阅读也相对方便.
作为程序的配置文件使用,如著名的web.xml,struts-config.xml
Ajax程序传递数据的载体.
WebService,SOAP的基础.

针对XML的API

将XML定义为一种语言之后,就出现了使用常见的编程语言(如Java)来同时表现和处理XML代码的需求。

首先出现的是Java上的SAX(Simple API for XML)项目。SAX提供了一个基于事件的XML解析的API。从其本质上来说,SAX解析器从文件的开头出发,从前向后解析,每当遇到起始标签或者结束标签、特性、文本或者其他的XML语法时,就会触发一个事件。然后,当事件发生时,具体要怎么做就由开发人员决定。

因为SAX解析器仅仅按照文本的方式来解析它们,所以SAX更轻量、更快速。而它们的主要缺点是在解析中无法停止、后退或者不从文件开始,直接访问XML结构中的指定部分。

DOM是针对XML的基于树的API。它关注的不仅仅是解析XML代码,而是使用一系列互相关联的对象来表示这些代码,而这些对象可以被修改且无需重新解析代码就能直接访问它们。

使用DOM,只需解析代码一次来创建一个树的模型;某些时候会使用SAX解析器来完成它。在这个初始解析过程之后,XML已经完全通过DOM模型来表现出来,同时也不再需要原始的代码。尽管DOM比SAX慢很多,而且,因为创建了相当多的对象而需要更多的开销,但由于它使用上的简便,因而成为Web浏览器和JavaScript最喜欢的方法。

最方便的XML解析利器-dom4j

Dom4j是一个易用的、开源的库,用于XML,XPath和XSLT。它应用于Java平台,采用了Java集合框架并完全支持DOM,SAX和JAXP.
sax和dom本身的api都比较复杂,不易使用,而开源包dom4j却综合了二者的优点,屏蔽了晦涩的细节,封装了一系列类和接口以方便用户使用它来读写XML.

Dom4j下载

要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/ 目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip
解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要加入包jaxen-1.1-beta-7.jar.

使用dom4j读写xml的一些常用对象

1.Document:文档对象,它代表着整篇xml文档.
2.Element:节点元素,它代表着xml文档中的一个节点元素,如前面的<age>25</age>就是一个Element.其值(文本值)为25.
3.Attribute:节点属性,如前面的节点元素<member name=“Andy”>…< /member >中, name就是节点元素的一个属性,其值(文本值)为Andy.

与Document对象相关的API

1.读取XML文件,获得document对象.
SAXReader reader = new SAXReader();
Document  document = reader.read(new File("input.xml"));

2.解析XML形式的文本,得到document对象.
String text = "<members></members>";
Document document = DocumentHelper.parseText(text);

3.主动创建document对象.
Document document = DocumentHelper.createDocument();
Element root = document.addElement("members");// 创建根节点

与Element有关的API

1.获取文档的根节点.
Element rootElm = document.getRootElement();

2.取得某节点的单个子节点.
Element memberElm=root.element(“member”);// “member”是节点名

3.取得节点的文字
String text=memberElm.getText();
也可以用:
String text=root.elementText("name");这个是取得根节点下的name字节点的文字.

4.取得某节点下名为"member"的所有字节点并进行遍历.
List nodes = rootElm.elements("member");

for (Iterator it = nodes.iterator(); it.hasNext();) {
   Element elm = (Element) it.next();
   // do something
}

5.对某节点下的所有子节点进行遍历.
for(Iterator it=root.elementIterator();it.hasNext();){
    Element element = (Element) it.next();
    // do something
}

6.在某节点下添加子节点.
Element ageElm = newMemberElm.addElement("age");

7.设置节点文字.
ageElm.setText("29");
8.删除某节点.
parentElm.remove(childElm);// childElm是待删除的节点,parentElm是其父节点

与Attribute相关的API

1.取得某节点下的某属性
    Element root=document.getRootElement();   
    Attribute attribute=root.attribute("size");// 属性名name

2.取得属性的文字
    String text=attribute.getText();
也可以用:
    String text2=root.element("name").attributeValue("firstname");这个是取得根节点下name字节点的属性firstname的值.

3.遍历某节点的所有属性
    Element root=document.getRootElement();   
    for(Iterator it=root.attributeIterator();it.hasNext();){
 Attribute attribute = (Attribute) it.next();
 String text=attribute.getText();
 System.out.println(text);
    }

4.设置某节点的属性和文字.
    newMemberElm.addAttribute("name", "sitinspring");

5.设置属性的文字
    Attribute attribute=root.attribute("name");
    attribute.setText("sitinspring");
6.删除某属性
    Attribute attribute=root.attribute("size");// 属性名name
    root.remove(attribute);

将document的内容写入XML文件

1.文档中全为英文,不设置编码,直接写入的形式.
    XMLWriter writer = new XMLWriter(new FileWriter("output.xml"));
    writer.write(document);
    writer.close();

2.文档中含有中文,设置编码格式写入的形式.
    OutputFormat format = OutputFormat.createPrettyPrint();
    format.setEncoding("GBK");    // 指定XML编码       
    XMLWriter writer = new XMLWriter(new FileWriter("output.xml"),format);
   
    writer.write(document);
    writer.close();

字符串与XML的转换

1.将字符串转化为XML
    String text = "<members> <member>sitinspring</member> </members>";
    Document document = DocumentHelper.parseText(text);

2.将文档或节点的XML转化为字符串.
    SAXReader reader = new SAXReader();
    Document  document = reader.read(new File("input.xml"));           
    Element root=document.getRootElement();               
    String docXmlText=document.asXML();
    String rootXmlText=root.asXML();
    Element memberElm=root.element("member");
    String memberXmlText=memberElm.asXML();

使用XPath快速找到节点.

读取的XML文档示例
<?xml version="1.0" encoding="UTF-8"?>
<projectDescription>
  <name>MemberManagement</name>
  <comment></comment>
  <projects>
    <project>PRJ1</project>
    <project>PRJ2</project>
    <project>PRJ3</project>
    <project>PRJ4</project>
  </projects>
  <buildSpec>
    <buildCommand>
      <name>org.eclipse.jdt.core.javabuilder</name>
      <arguments>
      </arguments>
    </buildCommand>
  </buildSpec>
  <natures>
    <nature>org.eclipse.jdt.core.javanature</nature>
  </natures>
</projectDescription>

使用XPath快速找到节点project.
 public static void main(String[] args){
    SAXReader reader = new SAXReader();
   
    try{
      Document  doc = reader.read(new File("sample.xml"));
     
      List projects=doc.selectNodes("/projectDescription/projects/project");
     
      Iterator it=projects.iterator();
     
      while(it.hasNext()){
        Element elm=(Element)it.next();      
        System.out.println(elm.getText());
      }
     
    }
    catch(Exception ex){
       ex.printStackTrace();
    }
  }

 

posted on 2008-03-02 00:09 和风细雨 阅读(812) 评论(0)  编辑  收藏 所属分类: XML


只有注册用户登录后才能发表评论。


网站导航: