herodby
技术 笔记
posts - 14,  comments - 14,  trackbacks - 0
06 2009 档案
基于lucence+heritrix的开源搜索引擎构建(一)      摘要: 最近一直想写个和搜索相关的东东,所以简单了解搜索引擎方面的知识,个人总结一个垂直搜索引擎 包含以下几个部分:
1 web 爬虫,抓取目标页面的内容。
2 数据预处理,把抓取下来的数据进行去噪,例如使用htmlparser等工具对去掉无用的标签数据等等,把
数据结构化DB或者其他存储系统已被后面使用。
3. 建立索引。
4. 分词,开发检索因子, 对索引数据进行检索。
5. 把检索到的数据,在web段展现。
下面就结合heritrix1.14.3 和lucence2.2.0,介绍下,整个搜索引擎的开发过程。
  阅读全文
posted @ 2009-06-26 02:35 邓兵野 阅读(3867) | 评论 (2)  编辑


<2009年6月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

常用链接

留言簿(2)

随笔分类

随笔档案

文章分类

文章档案

搜索

  •  

最新评论

阅读排行榜

评论排行榜