Posted on 2006-12-16 16:10
天霁 阅读(3590)
评论(15) 编辑 收藏 所属分类:
nutch
在nutch的开发过程中,很多程序员都烦恼nutch抓取数据后的保存格式,无法被直接浏览和管理,我也同样烦恼,呵呵,也是被人催得急了,抽出时间写了这么个小工具,用来浏览nutch保存的数据。
准备设计的功能有3块:
1。浏览和管理数据。
2。搜索数据。
3。导出nutch数据到指定数据库。
花了一天时间先写了第一块的一部分,能够浏览nutch抓取后的数据,先放在blog上吧,版本定为0.1,其实0.1也高,0.01比较合适。写的匆忙,代码比较简陋,本想开放源码,又怕贻笑大方,暂时先不发布源码了,只发布了一个jar包,代码并没有经过混淆,如果感兴趣反编译过来看就好了,或者留个邮箱,等到基本功能完成了发布到sourceforge上。
基本界面使用说明:
一. 下载与安装:
在这里下载,下载后解压缩,两个解压缩文件:RedmuTool.jar,startup.bat,一个类包文件
夹:lib。确认这三个在同一文件夹下。
二. 运行:
执行startup.bat。界面如下:
主界面出现后,File-->open,选择nutch抓取后保存数据的文件夹:
菜单中不同的选项对应不同的文件夹:
NutchCrawl,对应你选择的Crawl根目录。
CrawlDB,对应crawldb文件夹。
LinkDB,对应linkdb文件夹。
Segments,对应segments文件夹。
segment文件夹下是按照抓取时间命名的文件夹,内部分别是content,crawl_fetch,crawl_generate,crawl_parse,parse_data,parse_text,界面中对应的分别是:Content,CrawlFetch,ParseData和ParseText。
点击相应的选择,就会看到相应的数据内容:
字段名和相应的属性名相同,未做更多的处理。
在使用中任何意见均可留言,或发送邮件到:redmuer@hotmail.com。