摘要: 很久没有写技术blog了,这段时间心血来潮 对云计算,云存储产生兴趣,遂先把自己实际的安装配置笔记 记录下来。
阅读全文
posted @
2011-12-08 13:14 邓兵野 阅读(3496) |
评论 (2) |
编辑 收藏
摘要: 最近一直想写个和搜索相关的东东,所以简单了解搜索引擎方面的知识,个人总结一个垂直搜索引擎 包含以下几个部分:
1 web 爬虫,抓取目标页面的内容。
2 数据预处理,把抓取下来的数据进行去噪,例如使用htmlparser等工具对去掉无用的标签数据等等,把
数据结构化DB或者其他存储系统已被后面使用。
3. 建立索引。
4. 分词,开发检索因子, 对索引数据进行检索。
5. 把检索到的数据,在web段展现。
下面就结合heritrix1.14.3 和lucence2.2.0,介绍下,整个搜索引擎的开发过程。
阅读全文
posted @
2009-06-26 02:35 邓兵野 阅读(3867) |
评论 (2) |
编辑 收藏