posts - 110,  comments - 152,  trackbacks - 0

昨天睡觉前,总结了感兴趣的3个问题,现在来回顾一下

1.爬虫工作的过程?

2.爬虫获取数据后,数据的存储结构?

3.数据如何索引成Lucene设定的索引格式?

上午干工作耽误了,下午得闲,看点资料。试简单总结一下上面几个问题的。

先回答2号问题,数据的存储结构好了。

Nutch把爬虫找回来的资料做成了放在一个文件夹里面,美其名曰Web database。其实里面分别就四个文件夹了事。依次道来:

  • crawldb:存放需要抓取的的超链接地址;
  • segments:存放依据crawldb中提供的地址抓取到的内容信息。segments中的每个子文件夹存储fetcher根据crawldb抓取一次所得的内容。这些抓取的内容包括有content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate根据crawldb最初生成;crawl_fetch、content在抓取时生成;crawl_parse、parse_data、parse_text在解析抓取的数据文件时生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url数据,它们格式一样,不同的是抓取时间、状态、签名等有所变化。
  • Index和indexes:Index是最终我们所需要得到的东西,而Index就是通过indexes合并的到的。
  • Linkdb:linkdb中存放的是所有超链接及其每个链接的连入地址和锚文件。

好了这个存储结构的问题完成了。

抽空先写这么多,呆会有时间在继续。



平凡而简单的人一个,无权无势也无牵无挂。一路厮杀,只进不退,死而后已,岂不爽哉!
收起对“车”日行千里的羡慕;收起对“马”左右逢缘的感叹;目标记在心里面,向前进。一次一步,一步一脚印,跬步千里。
这个角色很适合现在的


posted on 2008-04-02 20:52 过河卒 阅读(974) 评论(0)  编辑  收藏 所属分类: Java/Java框架

只有注册用户登录后才能发表评论。


网站导航:
 
文章来自: http://www.blogjava.com/ponzmd/ (彭俊-过河卒) 转贴请声明!
访问统计: