XML(Extensible Markup Language )综述

XML的由来
XML是eXtensible Markup Language的缩写。扩展标记语言XML是一种简单的数据存储语言，使用一系列简单的标记描述数据，而这些标记可以用方便的方式建立，虽然XML占用的空间比二进制数据要占用更多的空间，但XML极其简单易于掌握和使用
XML是现代程序中一个必不可少的组成部分，也是世界上发展最快的技术之一。它的主要目的是以结构化的方式来表示数据，在某些方面，XML也类似于数据库，提供数据的结构化视图。
XML（可扩展标记语言）是从称为SGML（标准通用标记语言）发展而来的，SGML的主要目的是定义使用标签来表示数据的标记语言的语法。基于SGML的重要语言之一就是著名的HTML.
标签由包围在一个小于号<和一个大于号>之间的文本组成,起始标签(tag)表示一个特定区域的开始,例如<start>;结束标签定义了一个区域的结束,除了在小于号之后紧跟一个斜线外和起始标签一致,例如</end>.举例说明标签如下:
<member id=“007”>邦德</member>中,左边的<member id=“007”>是起始标签,邦德是标签中的文字,007是属性Attribute, </member >是结束标签.

XML的发展

由于SGML中存在特殊而随意的语法(如标签的非嵌套使用),使得建立一个SGML语言的解析器成了一项艰巨的任务,这些困难导致了SGML一直停步不前.
XML通过相对严格的语法规定使得建立一个XML解析器要容易得多,这些语法包括:
1）任何起始标签都必须有一个结束标签。
2）可以采用另一种简化语法，可以在一个标签中同时表示起始和结束标签。这种语法是在大于符号前紧跟一个斜线/.如<tag />等同于<tag></tag>.
3）标签必须按照合适的顺序进行嵌套，在没有关闭内部节点之前不能关闭外部节点。
4）所有的特性都必须有值，特性的值周围应该加上双引号。

XML文档示例

<?xml version="1.0" encoding="GBK"?>

<?xml version=“1.0” encoding=“GBK”?>是XML序言，这一行代码告诉解析器文件将按XML规则进行解析， GBK制定了此文件的编码方式。
<members>是文档的根节点，一个XML中有且只有一个根节点，否则会造成解析失败。
<member name=“Andy”>。。。</member>是根节点下面的子节点，name是其特性，特性的值为Andy。这个子节点下面有age和title两个子节点。

XML的用途

以文本的形式存储数据,这样的形式适于机器阅读,对于人阅读也相对方便.
作为程序的配置文件使用,如著名的web.xml,struts-config.xml
Ajax程序传递数据的载体.
WebService,SOAP的基础.

针对XML的API

将XML定义为一种语言之后，就出现了使用常见的编程语言（如Java）来同时表现和处理XML代码的需求。

首先出现的是Java上的SAX（Simple API for XML）项目。SAX提供了一个基于事件的XML解析的API。从其本质上来说，SAX解析器从文件的开头出发，从前向后解析，每当遇到起始标签或者结束标签、特性、文本或者其他的XML语法时，就会触发一个事件。然后，当事件发生时，具体要怎么做就由开发人员决定。

因为SAX解析器仅仅按照文本的方式来解析它们，所以SAX更轻量、更快速。而它们的主要缺点是在解析中无法停止、后退或者不从文件开始，直接访问XML结构中的指定部分。

DOM是针对XML的基于树的API。它关注的不仅仅是解析XML代码，而是使用一系列互相关联的对象来表示这些代码，而这些对象可以被修改且无需重新解析代码就能直接访问它们。

使用DOM，只需解析代码一次来创建一个树的模型；某些时候会使用SAX解析器来完成它。在这个初始解析过程之后，XML已经完全通过DOM模型来表现出来，同时也不再需要原始的代码。尽管DOM比SAX慢很多，而且，因为创建了相当多的对象而需要更多的开销，但由于它使用上的简便，因而成为Web浏览器和JavaScript最喜欢的方法。

最方便的XML解析利器-dom4j

Dom4j是一个易用的、开源的库，用于XML，XPath和XSLT。它应用于Java平台，采用了Java集合框架并完全支持DOM，SAX和JAXP.
sax和dom本身的api都比较复杂,不易使用,而开源包dom4j却综合了二者的优点,屏蔽了晦涩的细节,封装了一系列类和接口以方便用户使用它来读写XML.

Dom4j下载

要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/ 目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip
解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要加入包jaxen-1.1-beta-7.jar.

使用dom4j读写xml的一些常用对象

1.Document:文档对象,它代表着整篇xml文档.
2.Element:节点元素,它代表着xml文档中的一个节点元素,如前面的<age>25</age>就是一个Element.其值(文本值)为25.
3.Attribute:节点属性,如前面的节点元素<member name=“Andy”>…< /member >中, name就是节点元素的一个属性,其值(文本值)为Andy.

与Document对象相关的API

1.读取XML文件,获得document对象.
SAXReader reader = new SAXReader();
Document document = reader.read(new File("input.xml"));

2.解析XML形式的文本,得到document对象.
String text = "<members></members>";
Document document = DocumentHelper.parseText(text);

3.主动创建document对象.
Document document = DocumentHelper.createDocument();
Element root = document.addElement("members");// 创建根节点

与Element有关的API

1.获取文档的根节点.
Element rootElm = document.getRootElement();

2.取得某节点的单个子节点.
Element memberElm=root.element(“member”);// “member”是节点名

3.取得节点的文字
String text=memberElm.getText();
也可以用:
String text=root.elementText("name");这个是取得根节点下的name字节点的文字.

4.取得某节点下名为"member"的所有字节点并进行遍历.
List nodes = rootElm.elements("member");

for (Iterator it = nodes.iterator(); it.hasNext();) {
Element elm = (Element) it.next();
// do something
}

5.对某节点下的所有子节点进行遍历.
for(Iterator it=root.elementIterator();it.hasNext();){
Element element = (Element) it.next();
// do something
}

6.在某节点下添加子节点.
Element ageElm = newMemberElm.addElement("age");

7.设置节点文字.
ageElm.setText("29");
8.删除某节点.
parentElm.remove(childElm);// childElm是待删除的节点,parentElm是其父节点

与Attribute相关的API

1.取得某节点下的某属性
Element root=document.getRootElement();
Attribute attribute=root.attribute("size");// 属性名name

2.取得属性的文字
String text=attribute.getText();
也可以用:
String text2=root.element("name").attributeValue("firstname");这个是取得根节点下name字节点的属性firstname的值.

3.遍历某节点的所有属性
    Element root=document.getRootElement();
    for(Iterator it=root.attributeIterator();it.hasNext();){
Attribute attribute = (Attribute) it.next();
String text=attribute.getText();
System.out.println(text);
    }

4.设置某节点的属性和文字.
newMemberElm.addAttribute("name", "sitinspring");

5.设置属性的文字
    Attribute attribute=root.attribute("name");
    attribute.setText("sitinspring");
6.删除某属性
    Attribute attribute=root.attribute("size");// 属性名name
    root.remove(attribute);

将document的内容写入XML文件

1.文档中全为英文,不设置编码,直接写入的形式.
    XMLWriter writer = new XMLWriter(new FileWriter("output.xml"));
    writer.write(document);
    writer.close();

2.文档中含有中文,设置编码格式写入的形式.
    OutputFormat format = OutputFormat.createPrettyPrint();
    format.setEncoding("GBK");    // 指定XML编码
    XMLWriter writer = new XMLWriter(new FileWriter("output.xml"),format);

    writer.write(document);
    writer.close();

字符串与XML的转换

1.将字符串转化为XML
String text = "<members> <member>sitinspring</member> </members>";
Document document = DocumentHelper.parseText(text);

2.将文档或节点的XML转化为字符串.
    SAXReader reader = new SAXReader();
    Document document = reader.read(new File("input.xml"));
    Element root=document.getRootElement();
    String docXmlText=document.asXML();
    String rootXmlText=root.asXML();
    Element memberElm=root.element("member");
    String memberXmlText=memberElm.asXML();

使用XPath快速找到节点.

读取的XML文档示例
<?xml version="1.0" encoding="UTF-8"?>
<projectDescription>
<name>MemberManagement</name>
<comment></comment>
<projects>
    <project>PRJ1</project>
    <project>PRJ2</project>
    <project>PRJ3</project>
    <project>PRJ4</project>
</projects>
<buildSpec>
    <buildCommand>
      <name>org.eclipse.jdt.core.javabuilder</name>
      <arguments>
      </arguments>
    </buildCommand>
</buildSpec>
<natures>
    <nature>org.eclipse.jdt.core.javanature</nature>
</natures>
</projectDescription>

使用XPath快速找到节点project.
public static void main(String[] args){
    SAXReader reader = new SAXReader();

    try{
      Document doc = reader.read(new File("sample.xml"));

      List projects=doc.selectNodes("/projectDescription/projects/project");

      Iterator it=projects.iterator();

      while(it.hasNext()){
        Element elm=(Element)it.next();
        System.out.println(elm.getText());
      }

    }
    catch(Exception ex){
       ex.printStackTrace();
    }
}

posted on 2008-03-02 00:09 和风细雨阅读(859) 评论(0) 编辑收藏所属分类: XML

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: XML(Extensible Markup Language )综述 Dom4j下载及使用Dom4j读写XML简介

和风细雨

导航

统计

常用链接

留言簿(9)

随笔分类

随笔档案

文章档案

相册

搜索

最新评论

阅读排行榜

评论排行榜

XML(Extensible Markup Language )综述