Posted on 2007-06-26 21:47
tanzek 阅读(510)
评论(1) 编辑 收藏
开发自己的搜索引擎---Lucene 2.0 + Heritrix
【内容简介】
本书详细介绍了如何应用Lucene进行搜索引擎开发,通过学习本书,读者可以完成构建一个企业级的搜索引擎网站。.
全书共分为14章,内容包括搜索引擎与信息检索基础,Lucene入门实例,Lucene索引的建立,使用Lucene构建搜索,Lucene的排序,Lucene的分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式和Google Search API,爬虫Heritrix,综合实例之准备篇,综合实例之HTMLParser篇,综合实例之DWR篇,综合实例之Web编。..
本书是国内第一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过详细的对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。本书适合Java程序员和从事计算机软件开发的其他编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。
由于目前市面上从技术层面介绍搜索引擎的书并不多,即使有,也大多停留在理论阶段,而非搜索引擎的开发过程。因此,可以说本书是国内第一本详细介绍搜索引擎开发过程的图书。
(1)采用最新的Lucene 2.0。以前大家用的1.4.3版本,而最新的Lucene 2.0重写了很多API,内部的实现方法也有了很大优化。本书的代码都是在2.0版本下调试通过的,这样可以帮助读者了解Lucene的更多新功能。
(2)配有一个完整的搜索引擎案例。这个案例有很强的实用价值,只需稍加修改,就能应用于实际项目,市场价值在30000元以上!
(3)着重解决开发人员头痛的问题。本书的目的是指导项目实践,因此没有罗列各个API的用法,而是对常见的开发问题进行深入探讨,比如本书的第7章,是专门为解决“Word,Excel和PDF文件如何解析”这个问题而设置的。
(4)内容新颖,前卫实用。本书介绍了Compass、Heritrix、DWR和HTMLParser等内容。在搜索引擎开发的过程中,这些均为相当重要且实用的技术,笔者经过自身实践将它们展现给读者,希望能让读者在学习Lucene的同时开拓视野。
光盘特色:
配有一个完整的搜索引擎案例。这个案例有很强的实用价值,只需稍加修改,就能应用于实际项目,市场价值在30000元以上!...
[后注]:
一直以来都对搜索引擎很有兴趣的,最近在学习JAVA,看到了Lucene,所以就找了一下,觉得这本书应该还可以的。只是苦于一直没有可靠的经济来源,所以再等一会,看能不能等到电子版哦。唉,这样子偷偷摸摸地好苦啊!