本文主要阐述了Web搜索引擎的基本原理、核心技术和处理流程。对于搜索引擎的内部软件组织和数据结构、数据存储方法进行了深入的研究和分析。同时,对如何提高搜索引擎的精度和性能等,进行了深入细致的研究,对其中的核心算法进行了讨论和评估。
本文还介绍了基于Java的全文索引引擎Lucene软件包,并应用该软件包,搭建了华电Web网站站内信息搜索系统。并利用搜索引擎页面优先度算
法改进了其基础排序算法,使得信息检索系统的搜索性能得到进一步的提高。
搜索引擎的软件设计必须考虑到两个重要因素的影响:海量的文档存储和及时的响应速度。虽然CPU运算速度和海量存储设备的硬件存取速度在不断的提高,但是硬盘搜索时间仍然至少需要 loms以上。因此,搜索引擎软件设计的关键是尽量避免硬盘搜索,这也是搜索引擎数据结构设计的关键所在,由于搜索引擎对海量文件的存储要求,而操作系统对大型文件的支持局限性。
本文完整的文档开发资料,视频资料下载地址: 点击下载