昨天睡觉前,总结了感兴趣的3个问题,现在来回顾一下
1.爬虫工作的过程?
2.爬虫获取数据后,数据的存储结构?
3.数据如何索引成Lucene设定的索引格式?
上午干工作耽误了,下午得闲,看点资料。试简单总结一下上面几个问题的。
先回答2号问题,数据的存储结构好了。
Nutch把爬虫找回来的资料做成了放在一个文件夹里面,美其名曰Web database。其实里面分别就四个文件夹了事。依次道来:
- crawldb:存放需要抓取的的超链接地址;
- segments:存放依据crawldb中提供的地址抓取到的内容信息。segments中的每个子文件夹存储fetcher根据crawldb抓取一次所得的内容。这些抓取的内容包括有content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate根据crawldb最初生成;crawl_fetch、content在抓取时生成;crawl_parse、parse_data、parse_text在解析抓取的数据文件时生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url数据,它们格式一样,不同的是抓取时间、状态、签名等有所变化。
- Index和indexes:Index是最终我们所需要得到的东西,而Index就是通过indexes合并的到的。
- Linkdb:linkdb中存放的是所有超链接及其每个链接的连入地址和锚文件。
好了这个存储结构的问题完成了。
抽空先写这么多,呆会有时间在继续。
平凡而简单的人一个,无权无势也无牵无挂。一路厮杀,只进不退,死而后已,岂不爽哉!
收起对“车”日行千里的羡慕;收起对“马”左右逢缘的感叹;目标记在心里面,向前进。一次一步,一步一脚印,跬步千里。
这个角色很适合现在的我。
posted on 2008-04-02 20:52
过河卒 阅读(973)
评论(0) 编辑 收藏 所属分类:
Java/Java框架