天 霁

那天风大,搜搜的
posts - 4, comments - 36, trackbacks - 1, articles - 1
  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

2006年10月18日

     摘要: 好久没回来了,终于有时间可以更新这个小工具了。
修改的地方:
1、区分数据存储的实际目录;
2、可以反复查询不同的目录数据;
3、数据导出为CVS文件;
4、其他一些小bug;
5、修改status的表现内容  阅读全文

posted @ 2007-06-29 22:41 天霁 阅读(1608) | 评论 (13)编辑 收藏

     摘要: 在nutch的开发过程中,很多程序员都烦恼nutch抓取数据后的保存格式,无法被直接浏览和管理,我也同样烦恼,呵呵,也是被人催得急了,抽出时间写了这么个小工具,用来浏览nutch保存的数据。  阅读全文

posted @ 2006-12-16 16:10 天霁 阅读(3590) | 评论 (15)编辑 收藏

     摘要: Nutch采用了类似Eclipse的插件方法来扩展功能,具有良好的扩展性和耦合性,本文尝试对QueryFilter的所有子类的加载过程简单分析。  阅读全文

posted @ 2006-12-02 21:39 天霁 阅读(2605) | 评论 (5)编辑 收藏

     摘要: nutch作为开源代码,为热爱搜索引擎的开发人员们提供了很好的学习平台,0.8版本开始,采用了Hadoop作为自己的分布式文件系统,更是把nutch同其他开源搜索引擎的差距拉开。

本文为nutch的windows安装进行了step by step的描述  阅读全文

posted @ 2006-10-18 19:52 天霁 阅读(7204) | 评论 (4)编辑 收藏