关键字:搜索引擎、语义搜索
1.网络搜索引擎的现状
搜索引擎在互联网的重要地位由来已久。Yahoo 作为门户网站奇迹般崛起所依靠的正是搜索引擎,Google 也以搜索引擎的技术创新、竞价排名和专业风格创造了新的奇迹。在国内,百度也在很短的时间里凭借搜索引擎取得很大成功。
搜索引擎技术及业务模式的持续创新,不仅为互联网注入了活力,而且其自身的价值正被重新审视和评估。互联网的发展使得信息短缺的问题被信息泛滥所取代,世界也已从信息时代走进信息经济时代,这两者的区别在于,前者强调信息本身的价值,只要解决信息资源短缺就会带来价值的提升;后者认为信息并不稀缺,只有通过对信息的甄别、加工提纯和挖掘才能带来价值的提升。
据中国国家互联网中心(CNNIC)2005年1月发布的第15次互联网发展统计报告[[1]],我国的网络用户有9400万人,比2004年6月发布的14次报告又增加了700万。在用户经营使用的网络服务中,搜索引擎仅次于电子邮箱排在第2位。有98.5%的用户上网最主要的是获取信息,通过搜索引擎获取信息的占70.7%,搜索引擎成为未知状态下发现有效信息的最有效方式。
2.网络搜索引擎的工作原理
搜索引擎的原理,可以看作三步:
1)从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
2) 建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3)在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
3.网络搜索引擎的评价指标
评价搜索引擎的主要指标有查全率、查准率、响应时间、覆盖范围、用户使用方便性等等。
1)查全率(Recall)
查全率又叫召回率,是指检索出的相关文档占全部相关文档的比率。即用户通过搜索引擎所获取的有用信息与整个Internet中相关信息的比率。
2)查准率(Precision)
查准率是指获取的相关文档与获取文档的比率。即用户通过搜索引擎所获取的真正是用户需要的信息占获取信息的比率。搜索引擎的查准率是个复杂的概念,一方面表示搜索引擎对搜索结果的排序能力,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。
3)响应时间(Response Time)
响应时间是指用户发出查询请求后到看到查询结果的这段时间。
4)覆盖范围(Coverage)
覆盖范围是指搜索引擎索引的Web页面占整个Internet中页面的比例。
5)用户方便性(Convenience)
用户方便性包括查询接口是否直观、易于使用、查询语法是否丰富,显示结果是否易于查看等。
4.网络搜索引擎的主要技术
网络搜索引擎做为信息检索系统的一个分支,理所当然的涉及到信息检索方面的技术,同时它做为一个独立、成熟的领域也有自己的技术空间:
1)目录检索和全文检索
传统的搜索引擎一般使用两种技术来实现信息检索:
一是使用网站分类技术实现目录检索,即把网站进行树状的归类,登陆的网站属于至少一个类别,对每个站点都有简略的描述。Yahoo采用了这种方法。为了分类科学准确,需要有一支各科人才组成的维护队伍。
二是使用全文检索技术。全文检索技术处理的对象是文本,它能够对大量文档建立由字(词)到文档的倒排索引,在此基础上,用户使用关键词来对文档进行查询时,系统将给用户返回该关键词的网页。
2)索引文件结构
全文检索的两个关键技术是索引和检索。检索又是基于所建立的索引结构进行的。索引文件主要分为正向索引和倒排索引。正向索引是基于文档的,每一个文档对应一个索引文件,其中记录着这个文档中出现的词。倒排索引是基于词汇表的,每一个特征词对应一个倒排索引,其中记录着所有出现过这个词的文档。目前,技术比较成熟、也是公认效率较高的索引存储结构是倒排文件。需要明确的是,中文的构词方式、句法、语法都与英文有很大区别,因此,不同于英文全文检索的索引方法,中文全文检索中主要的建立索引方法是字索引和词索引。字索引保证了高的召回率,不会出现漏查错误,但是会出现多查和误查。检索结果中会出现不少与检索意图无关的条目。另外,基于字索引的全文检索的检索效率也比较低。而词索引保证了较高的查准率和检索效率,但是由于中文分词能力的局限,导致基于词索引的全文检索必定会存在漏检情况。另外,对于未登陆词,词索引显得力不从心。现存比较实用的中文信息检索系统一般都结合使用了字词混合索引,或者扩展的词索引,来保证召回率和查准率。
网络搜索引擎由于各自的策略不同,在选择索引对象的内容时也有不同。有些搜索引擎对于信息库中的页面建立全文索引,有些只建立摘要部分,或者每个段落前面部分的索引,还有些搜索引擎(如Google)建立索引的时候,同时考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为它所指向的页面的重要信息。Google,Infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构。利用这些结果信息可以提高页面相关度判别时候的准确度。
3)数据源文件的分布策略
搜索引擎的数据源文件主要包括索引文件和原文档。目前,数据源文件的分布策略主要有集中存放和分布式存放。文献[2]指出Google就是采用了集群的方式集中存放数据源文件,事实上,几乎所有的商业搜索引擎都采用集中存放的方式,这是因为分布式存放策略有一个硬伤,就是搜索请求从一个端点传送到另外一个端点消耗的时间让用户难以忍受。但是,随着互联网上信息的急剧膨胀,改进后的分布式策略是最终的解决方案。
4)索引大文件的存放策略
倒排文件是一个大文件,这是因为倒排文件中存放的记录(Hit)表示的是文档中出现本特征词的状况。目前的商业搜索引擎的文档集中的文档数量非常之大,因此倒排文件的记录数也会很大,最终导致倒排文件的尺寸非常大。
对于大文件首先考虑的是压缩,像是Google存放的索引文件就是经过压缩的。好的压缩算法同时要求压缩比尽可能高、查找压缩文件容易、解压缩时间短。即使压缩之后的文件仍然大到不能以独立的文件形式存放,目前有两种分离大文件为多个小文件的策略:
一是基于文档集的分离。主要是将文档集分成有限个子集,对于每一个子集建立各自的索引文件,检索过程就演变为对多个文档子集的检索,最后做的合并处理。
一是基于索引文件的分离。即是将索引大文件分为有限个子文件,并设计一张表记录这种分离情况,当要检索这个索引文件时就查找这张表,根据表的记录去查找每一个子文件。文献[3]指出Google将索引大文件分离为若干个小文件,每一个小文件都以独立的linux文件存放,通过linux系统管理这些小文件,这正是这个策略的一种表现。
5)排序算法
各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度。目前,不同搜索引擎基于不同的搜索策略设计有多种不同的排序算法,以Google为例,它采用很多种排序算法支持搜索结果,其中最典型的代表有PageRank和HillTop,这两种都属于超链接分析技术。
5.语义搜索的兴起
目前实用化的信息检索系统主要基于人工分类目录或关键词匹配。前者对海量信息资源的揭示的效率不高、深度有限;后者在信息的语义和语用的揭示上有局限性。信息检索系统在智能处理能力上的缺乏,导致这些工具远远不能满足用户的需求。如何解决好诸如信息组织、知识表示、机器理解与人机交互等问题,对于提高信息利用的效率,是非常重要和迫切的。近年来,语义网的提出为解决这些问题提供了锲机,由于语义网中的资源被结构化,能被计算机所理解和识别,这样提供了改进传统搜索技术的机会。语义检索的目的是通过从语义网上获取的数据增强并改进传统的搜索结果(基于信息检索技术)。它实现了用户检索请求的本体化,整个搜索引擎像领域专家一样,不仅给出查询结果,还给出了与检索请求相关的资源,大大提高检索的精度和覆盖率;实现了本体层次的检索,突破了关键词检索局限于形式的固有缺陷。它的出现提高了用户的满意度,减少了不相关的返回结果,提高了检索的精度和覆盖率。
最初人们通过代表语义的HTML标签来改造网页,主要有GDA系统和
SHOE(SimpleHTMLOntologyExtensions)系统等。但这些系统的不足是仅能处理经过HTML标签改造的网页。
XML是非常有前途的语言,因为它将网页的内容、结构和描述分离,并且非常适合知识的描述。但是XML通过它的句法结构仅能描述一些语义属性。
语义网络的建立使得以语义为基础的搜索引擎同时可以建立起来。在语义搜索引擎中,每一个查询都在一些本体的上下文范围内执行,来自本体的一些指南可以提高检索的准确性。在语义检索中,使用的是概念匹配,即自动抽取文档的概念,加以标引,用户在系统的辅助下选用合适的词语表达自己的信息需求,然后在两者之间执行概念匹配,即匹配在语义上相同、相近、相包含的词语。
6.语义搜索当前的应用
当前基于ontology 的语义检索系统已经得到了广泛的关注和应用,出现了一系列优秀的应用系统,其中典型的有两个:SWOOGLE——语义网中的基于蜘蛛网的检索系统,系统从每个搜索到的文本中抽取本体,根据本体之间的相关度来比较文本之间的关系;TUCUXI(InTelligent Hunter Agent for Concept Understanding and LeXical ChaIning),该系统根据查找的本体在网页上爬行,决定哪种网页最满足需求。特别的,TUCUXI 判断文档的相关性是同Map of Meanings 比较用户所查询的相关本体。Map of Meanings 语义丰富,用来对资源文本的表达。TUCUXI 采用了MOMIS 公用字典来表征用户查询的本体。在语义网中,基于Ontology 的语义检索搜索引擎有SHOE、OntoBroker、OntoSeek、WebKB、Corese。
7.总结
语义搜索引擎是未来搜索引擎发展的方向,它的发展主要受限于语义web的发展以及自然语言处理技术。语义搜索引擎设计的最终目标是让计算机具有人的智能,以解决问题的形式返回给用户。语义搜索引擎设计的当前目标是让计算机返回的结果更有针对性、准确性。
参考文献:
[1] CNNIC第15次互联网发展状况报告
[[2]] Luiz André Barroso, Jeffrey Dean, Urs H?lzle. WEB SEARCH FOR A PLANET: THE GOOGLE CLUSTER ARCHITECTURE
[[3]] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. The Google File System
posted on 2008-02-26 23:02
101℃太阳 阅读(810)
评论(2) 编辑 收藏 所属分类:
一些文章