[转] XML DOM介绍和例子

XML DOM介绍和例子

1.文档对象模型（DOM）
　　DOM是HTML和XML文档的编程基础，它定义了处理执行文档的途径。编程者可以使用DOM增加文档、定位文档结构、填加修改删除文档元素。W3C 的重要目标是把利用DOM提供一个使用于多个平台的编程接口。W3C DOM被设计成适合多个平台，可使用任意编程语言实现的方法。
　　2.节点接口
　　XML parser用来装载XML文档到缓存中，文档装载时，可以使用DOM进行检索和处理。DOM采用树形结构表示XML文档，文档元素是树的最高阶层，该元素有一个或多个孩子节点用来表示树的分枝。
　　节点接口程序通常用来读和写XML节点树中的个别元素，文档元素的孩子节点属性可以用来构造个别元素节点。XML parser用来证明Web中的DOM支持遍历节点树的所有函数，并可通过它们访问节点和及其属性、插入删除节点、转换节点树到XML中。
　　所有Microsoft XML parser函数得到W3C XML DOM的正式推荐，除了load和 loadXML函数（正式的DOM不包括标准函数loading XML文档）。有13个节点类型被Microsoft XML parser支持，下面列出常用节点：
　　节点类型例子
　　Document type <!DOCTYPE food SYSTEM "food.dtd">
　　Processing instruction <?xml version="1.0"?>
　　Element <drink type="beer">Carlsberg</drink>
　　Attribute type="beer"
　　Text Carlsberg

　　
3.使用XML parser
　　为了更加熟练的处理XML文档，必须使用XML parser。Microsoft XML parser是IIS5.0所带的一个COM组件，一旦安装了IIS5.0，parser可以利用HTML文档和ASP文件中的脚本。
　　Microsoft XMLDOM parser支持以下编程模式：
　　----支持JavaScript, VBScript, Perl, VB, Java, C++ 等等
　　----支持W3C XML 1.0 和XML DOM
　　----支持DTD 和validation
　　如果使用IE5.0中的JavaScript，可以使用下面的XML文档对象：
　　var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
　　如果使用VBScript，可以使用下面的XML文档对象：
　　set xmlDoc = CreateObject("Microsoft.XMLDOM")
　　如果使用ASP，可以使用下面的XML文档对象：
　　set xmlDoc = Server.CreateObject("Microsoft.XMLDOM")

4.装载一个XML文件到parser中
　　下面的代码装载存在的XML文档进入XML parser:
　　 <script language="JavaScript">
　　 var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.load("note.xml")
　　 // ....... processing the document goes here
　　 </script>
　　第一行脚本增加了一个Microsoft XML parser实例，第三行装载名为”note.xml”的XML文档进入parser中。第二行保证文档装载完成以后parser进行下一步工作。
　　

5. parseError对象
　　打开XMl文档时，XML Parser产生错误代码，并存在parseError对象中，包括错误代码、错误文本和错误行号，等信息。
　　

6.文件错误
　　下面的例子将试图装载一个不存在的文件，然后产生相应的错误代码：
　　 var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.load("ksdjf.xml")
　　 document.write("<br>Error Code: ")
　　 document.write(xmlDoc.parseError.errorCode)
　　 document.write("<br>Error Reason: ")
　　 document.write(xmlDoc.parseError.reason)
　　 document.write("<br>Error Line: ")
　　 document.write(xmlDoc.parseError.line)
　　

7.XML错误
　　下面使用不正确的格式装载XMl文档，
　　 var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.load("note_error.xml")
　　 document.write("<br>Error Code: ")
　　 document.write(xmlDoc.parseError.errorCode)
　　 document.write("<br>Error Reason: ")
　　 document.write(xmlDoc.parseError.reason)
　　 document.write("<br>Error Line: ")
　　 document.write(xmlDoc.parseError.line)
　　

8. parseError属性
　　属性描述：
　　 errorCode 返回长整型错误代码
　　 reason 返回字符串型错误原因
　　 line 返回长整型错误行号
　　 linePos 返回长整型错误行号位置
　　 srcText 返回字符串型产生错误原因
　　 url 返回url装载文档指针
　　 filePos 返回长整型错误文件位置
　　

9.遍历节点树
　　一种通用的析取XML文档的方法是遍历节点树和它的元素值。下面是使用VBScript写的遍历节点树的程序代码：
　　 set xmlDoc=CreateObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.load("note.xml")
　　 for each x in xmlDoc.documentElement.childNodes
　　 document.write(x.nodename)
　　 document.write(": ")
　　 document.write(x.text)
　　 next
　　

10.为XML文件提供HTML格式
　　 XML的一个优点是把HTML文档和它的数据分离开。通过使用浏览器中的XML parser，HTML页面可以被构造成静态文档，通过JavaScript提供动态数据。下面的例子使用JavaScript读取XML文档，写XML数据成HTML元素：
　　 var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.load("note.xml")
　　 nodes = xmlDoc.documentElement.childNodes
　　 to.innerText = nodes.item(0).text
　　 from .innerText = nodes.item(1).text
　　 header.innerText = nodes.item(2).text
　　 body.innerText = nodes.item(3).text
　　

11.通过名称访问XML元素
　　下面的例子使用JavaScript读取XML文档，写XML数据成HTML元素：
　　 var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.load("note.xml")
　　 document.write(xmlDoc.getElementsByTagName("from").item(0).text)
　　

12.装载纯XML文本进入parser
　　下面的代码装载文本字符串进入XML parser ：
　　 <script language="JavaScript">
　　 var text="<note>"
　　 text=text+"<to>Tove</to><from>Jani</from>"
　　 text=text+"<heading>Reminder</heading>"
　　 text=text+"<body>Don't forget me this weekend!</body>"
　　 text=text+"</note>"
　　 var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.loadXML(text)
　　 // ....... processing the document goes here
　　 </script>
　　

13.装载XML进入Parser
　　 <html>
　　 <body>
　　 <script language="javascript">
　　 var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.load("note.xml")
　　 document.write("The first XML element in the file contains: ")
　　 document.write(xmlDoc.documentElement.childNodes.item(0).text)
　　 </script>
　　 </body>
　　 </html>
　　

遍历XML节点树：
　　 <html>
　　 <body>
　　 <script language="VBScript">
　　 txt="<h1>Traversing the node tree</h1>"
　　 document.write(txt)
　　 set xmlDoc=CreateObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.load("note.xml")
　　 for each x in xmlDoc.documentElement.childNodes
　　 document.write("<b>" & x.nodename & "</b>")
　　 document.write(": ")
　　 document.write(x.text)
　　 document.write("<br>")
　　 next
　　 </script>
　　 </body>
　　 </html>

　　装载XML 进入HTML
　　 <html>
　　 <head>
　　 <script language="JavaScript"
　　 for="window" event="onload">
　　 var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
　　 xmlDoc.async="false"
　　 xmlDoc.load("note.xml")
　　 nodes = xmlDoc.documentElement.childNodes
　　 to.innerText = nodes.item(0).text
　　 from.innerText = nodes.item(1).text
　　 header.innerText = nodes.item(2).text
　　 body.innerText = nodes.item(3).text
　　 </script>
　　 <title>HTML using XML data</title>
　　 </head>
　　 <body bgcolor="yellow">
　　 <h1>Refsnes Data Internal Note</h1>
　　 <b>To: </b><span id="to"></span>
　　 <br>
　　 <b>From: </b><span id="from"></span>
　　 <hr>
　　 <b><span id="header"></span></b>
　　 <hr>
　　 <span id="body"></span>
　　 </body>
　　 </html>　

１、DOM树
所有类型的XML解析器都要求处理对象是“格式良好”的XML文档，有些还能根据DTD或XML Schema进行有效性验证，DOM （Document Object Model）解析器将XML文档一次性解析，生成一个位于内存中的对象树用以描述该文档。
DOM是一种与平台和语言无关的接口，它允许程序和脚本动态访问和修改文档的内容、结构和类型。它定义了一系列的对象和方法对DOM树的节点进行各种随机操作：

● Document对象：作为树的最高节点，Document对象是对整个文档进行操作的入口。
● Element和Attr对象：这些节点对象都是文档某一部分的映射，节点的定级层次恰好反映了文档的结构。
● Text对象：作为Element和Attr对象的子节点，Text对象表达了元素或属性的文本内容。Text节点不再包含任何子节点。
● 集合索引：DOM提供了几种集合索引方式，可以对节点按指定方式进行遍历。索引参数都是从0开始记数的。

DOM树中的所有节点都是从Node对象继承而来的。Node对象定义了一些最基本的属性和方法，利用这些方法可以实现对树的遍历，同时，根据属性还可以得知节点的名称、取值并判断其类型。
利用DOM，开发人员可以动态地创建XML、遍历文档、增加/删除/修改文档内容。DOM提供的API与编程语言无关，所以对一些DOM标准中没有明确定义的接口，不同解析器的实现方法也可能有所差别。为方便描述，本文的举例均采用MSXML DOM方案并用VB Script编写代码。

２、DOM树的结构
Document对象建立之后，就可以与XML文档或数据岛联系在一起。数据岛的加载方法是将数据岛ID赋给Document对象：
<XML ID=“dsoDetails” src=“Books.xml”></XML>
Set doc = dsoDetails.XMLDocument
加载文档大体上分为三步：
1．使用CreateObject方法创建分析器实例；
2．设置async属性为False，禁止异步加载，这样当文档加载完毕，控制权才会返回给调用进程，如果想获取文档加载状态，可以读取readyState属性值；
3．使用load方法加载指定文档。
Set doc = CreateObject(“Microsoft.XMLDOM”)
doc.async = False
doc.load “Books.xml”
XML DOM还提供了一种loadXML的方法可以把XML字符串加载到DOM树中，使用时只要把XML字符串直接作为该方法的参数即可。

３、DOM树的访问
在文档加载完毕之后就可以使用documentElement属性访问根元素：
Set rootNode = doc.documentElement
一旦建立了对DOM树中某个节点（例如根节点）的引用，就可以根据节点间的等级关系调用适当的方法进行遍历。
下面以books.xml为例说明各种方法的使用：
<xml id=“dsoBooks”>
<?xml version=“1.0”?>
<booklist>

<book>
<title>The Gourmet Microwave</title>
<price>9.95</price>
<author>Charlotte M. Cooper</author>
<author>Shelley B. Burke</author>
<author>Regina P. Murphy</author>
</book>

<book>
<title>Sushi, Anyone?</title>
<price>14.99</price>
</book>

<book>
<title>Straight Talk About Computers</title>
<price>19.99</price>
<author>Lars Peterson</author>
</book>

</booklist></xml>
建立对第二个<book>元素的引用：
Set theNode =dsoBooks.XMLDocument.documentElement.childNodes(1)
● 根节点：theNode.ownerDocument返回Document节点，指向XML文档本身；
● 兄弟节点：theNode.previousSibling返回第1个<book>元素，theNode.nextSibling返回第3个<book>元素;
● 父节点：theNode.parentNode返回<booklist>元素;
● 子节点：theNode.firstChild返回<title>元素，theNode.lastChild返回< price>元素，theNode.childNodes返回子节点集合，包括Sushi下面的所有元素。节点记数从0开始，即 theNode.childNodes(0)的结果与theNode.firstChild的结果是一样的。
获得节点的引用后，就可以读取节点的相关信息：
● 节点类型：theNode.nodeType，本例为1，Document对象类型为9，元素类型为1，属性类型为2；
● 节点名称：theNode.nodeName，本例为book；
● 节点值：theNode.nodeValue，本例为null，对于Attr节点，返回的是属性值，而对于Element节点，返回的是null。
在MSXML中，对Node对象还提供了一些额外的方法和属性：
● nodeTypeString：用字符串的方式显示节点类型，如theNode.nodeTypeString的结果是“element”；
● text: 显示当前节点及其所有子节点的文本内容;
● xml：获取XML文档数据，通常是从根元素开始的所有内容。

４、XML格式的动态转换
通过学习XSL，我们已经能够使用样式单对XML文档进行转换。但这种过程是静态的，即在编写代码时，已经指定了作用在XML上的XSL文件，在程序运行过程中不能再做改变。而利用DOM，我们能够实现XML格式的动态转换，即在程序运行时，将XSL载入并对XML文档进行转换。
把XSL载入DOM对象的步骤基本上与XML文档的载入过程是一样的（XSL本身就是XML文档）：
Set stylesheet = CreateObject(“Microsoft.XMLDOM”)
stylesheet.async = False
stylesheet.load “TransformDetails.xsl”
DOM提供了两个函数进行这种转换，作用对象可以是树中任何节点。这样就可以实现对DOM树的任意的部分进行格式转换。
● transformNodeToObject方法：该方法需要两个参数，第一个参数指向XSL文件，第二个参数存放转换后的XML数据的节点。例如：
Set targetNode = CreateObject(“Microsoft.XMLDOM”)
srcNode.transformNodeToObject stylesheet, targetNode
● transformNode方法：该方法只需要一个参数指明XSL文件。如下例是将源节点转换为一个字符串变量str：
str = srcNode.transformNode(stylesheet)

１、DOM解析时的错误
DOM在解析XML文档的时候可能会产生各式各样的错误，可以根据ParseError对象中的属性得知出错的可能原因及相关信息。
常用的属性及其含义如下表所示：
属性说明
errorCode 错误代码
filepos 错误在文档中的绝对字符位置
line 错误所在行的行号
linepos 错误所在行的字符位置
reason 错误产生原因
srcText 错误所在行的源代码
url 最近一份含有解析错误的XML文档的URL地址

２、访问DOM树中的元素与属性
DOM还提供了许多查找节点的方法。其中基于搜索机制的方法有：
● 根据标签名称搜索元素；
● 使用XSL模式搜索节点；
● 利用集合索引搜索节点。
以books.xml为例，Document对象中的getElementsByTagName方法就是根据参数中的标签名称在全文范围内查找元素的，返回值是一个NodeList对象：
Set doc = dsoDetails.XMLDocument
Set authors = doc.getElementsByTagName(“author”)
上述查询结果中包含了文档中出现的全部4位作者。如果调用的是Element对象中的getElementsByTagName方法，除了搜索范围缩小为该元素的所有后继节点之外，其他的情况都是一样的。
所有类型的节点都带有selectNodes方法，该方法的唯一参数是XSL的模式规则，返回值是匹配该规则的结果集合。调用这个方法可以利用XSL的模式匹配策略查找节点。例如：
Set rootNode = doc.documentElement
Set cheapbooks = rootNode.selectNodes(“//book[price < 10]”)
这个例子返回所有售价低于10元的<book>元素。另外，节点中的selectSingleNodes方法的用法与selectNodes是一样的，只是返回结果为查找到的满足条件的第一个节点而已。

对于元素节点，获取元素标签名称的方法有两种：anyElement.nodeName和anyElement.tagName。前者是Node对象的属性，后者是Element对象的属性。
如果想获取元素中的文本内容，如: <price>9.95
</price>时，访问Element对象中的nodeValue属性是错误的，这时返回结果是null，而不是预期的9.95。含有文本内容的元素都包含一个Text类型的子节点，所以只有通过Text对象中的nodeValue属性才能真正访问到文本内容。
添加元素的步骤如下：
● 创建一个Text节点并赋值；
● 创建Element节点；
● 把Text节点挂在Element节点下，作为它的子节点；
● 把Element节点插入到XML文档的合适位置上。

对于元素节点的删除和替换操作，首先都要对操作对象进行定位，然后相应地执行对象节点所属父节点的removeChild方法和replaceChild方法即可。
Attr节点的各种操作在原理上与Element节点相同。Attr对象同样继承了Node对象中的各种方法和属性，并且MSXML中还提供了name属性和value属性，能够更直接地访问到属性信息。另外，还可以通过属性所属元素的相关方法访问属性，如通过getAttribute和 setAttribute方法读取属性值或修改属性值，或者用getAttributeNode方法直接返回Attr对象。
创建新属性最直接的办法就是使用Element对象中的setAttribute方法。也可以先用Document对象中的 createAttribute方法设置属性值，然后使用Element对象中的setAttributeNode方法把新节点添加到DOM树中。同样地，删除属性最直接的方法是调用Element中的removeAttribute方法。另外一种方案是先用getAttributeNode方法对操作对象进行定位，然后执行removeAttributeNode操作。
从以上的介绍中可以看出，由于节点间的继承关系，以及各种类型节点本身提供的丰富的接口，用户可以很容易地找到一套适合自己需要的对象操作方案。

３、DOM的显示功能
DOM技术还可以用来显示XML数据。XSL样式单面向的是XML文档的转换，用于显示格式的转换是其应用的一个方面，所以在显示功能上还存在着一些不足：
● 不易完成对XML数据的复杂处理，如将英文字母全部转换为大写，截取指定长度的字符串，忽略一些特定的标点等；
● 不易对XML数据中的数值进行计算；
● 一个XSL通常是静态地作用到一个XML文档上，无法将多个XML文档中的数据用一个XSL合并转换为一个输出结果。
使用DOM就能够很好地解决上述问题

posted on 2006-11-28 16:38 Java初心阅读(1202) 评论(0) 编辑收藏所属分类: Javascript/Css

常用链接

留言簿(1)

随笔分类

随笔档案

文章分类

文章档案

搜索

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: [转] XML DOM介绍和例子 checkbox全选/全不选等相关操作