XML(eXtansible Markup Language,可扩展标记语言)是一套用来标记文档的语法,它和现在的Web标记语言HTML相同,都是由SGML发展而来(由于SGML过于求大、求全,未能广泛应用),同样由W3C(World Wide Web Consortium万维网联盟)制定标准。其目标是统一未来跨平台数据交换的格式,并取代现有的HTML成为下一代Web页的标准。
XML和HTML都采用标记来表示数据,但本质上却完全不同。HTML标记由W3C管理,只有W3C能够定义、扩展和管理这些标记,因此,如果自定义的标记不被W3C承认,也就没有任何价值。同时,HTML本身不能帮助理解或管理数据,例如,要从HTML文本中提取有效数据完全凭借人类的思维,我们无法编写这样的程序,让它从关于书本的HTML文本中获取作者的名称。因为有的作者可能用<div>表示,有的可能被<layer>包含,HTML并未对如何表示一个作者制定规范,因而没法让程序理解哪个标记包含作者,哪个没有。
XML正好相反,它的标记是可自定义的、可扩展的和可识别的。例如,我们可以在关于书籍的XML文本中,定义<name>标记为书本的作者,只要遵循相应的DTD(Document Type Define,文档类型定义),那么任何来源的XML文本,其<name>元素都可以被正确识别,这在HTML是无法实现的。更重要的是,理论上任何应用都可以识别并处理这些数据,如Web浏览器、WAP手机、数据库系统或任何其它传统软件,只要它们能够理解并遵守DTD规范就都可以。最后,依照每个应用的需要,可以根据实际情况创建更多标记,或赋予标记不同的含义。如前面的<name>,在介绍书本的文档中可以是作者,在介绍古董的文档中可以是古玩的名称,在学习化学的文档中可以是化学元素,完全可以根据需求来处理,并且能够保证不被混淆。
另外,XML比HTML更加严格。它不允许出现不配对的标记,如常用的回车符<br>,在XML中,要么是<br/>,要么是<br></br>。也不允许标记的堆叠,如<td><form></td></form>,而且XML区分大小写。最后,XML文档有且仅有一个根元素。
XML可以应用到Web,但不限于Web,就像我们看到的那样,通过XML最终在前所未有的范围内,实现统一的数据格式规范和完善的处理方法。
由于XML的可扩展标记非常灵活,能够正确解析它的浏览器非常稀少。现有的XHTML做出了尝试,它是一种比XML更加严格的超文本标记语言,但它毕竟还是属于固定标记的文档,在数据交换中还不能和XML相提并论。正是由于目前的浏览器对XML的支持不够,造成XML在Web中的应用受到了严重限制,因此,将XML应用到Web必须采用其它的手段。目前,被广泛应用的主要包括W3C自己制定的XSL和一些服务器端脚本,如PHP、JSP等。下面谈谈这些Web中的XML应用方法,希望能够达到抛砖引玉的目的。
文章来源:
http://www.jspcn.net
posted on 2006-07-04 13:05
Black&White JavaWorld 阅读(75)
评论(0) 编辑 收藏