posts - 110,  comments - 152,  trackbacks - 0

再来1号问题:爬虫的工作过程

来个图:

workflow

动作分解:
<传言看源代码理解的更细致,不过偶没看,偶是根据文档和下午的操作总结的,错了请指正。>

1.创建空数据库Webdb:

2.向Webdb中注入入口攫取地址:

3.根据Webdb中数据生成fetchlist,并生成相应的segment。

4.根据fetchlist攫取内容(fetched content)。

5.根据获取内容更新Webdb

6.重复执行3-5.这个过程52se称为“产生/抓取/更新”循环。

7.完成上面的循环后,根据Webdb中信息,如网页评分和链接信息等,再次更新segment.

8.索引被攫取的页面,生成链接。

9.去除indexes中重复的内容和链接。

10.依靠indexes合成单一的index文件。大功告成。

上面这些步骤都可以对应到Nutch给我们提供的CrawlTool中的命令上。

爬虫忙完了,有了数据,我们就可以利用Nutch的search部分功能来查找内容了。

 

参考:Nutch爬虫工作流程及文件格式详细分析

Introduction to Nutch, Part 1: Crawling



平凡而简单的人一个,无权无势也无牵无挂。一路厮杀,只进不退,死而后已,岂不爽哉!
收起对“车”日行千里的羡慕;收起对“马”左右逢缘的感叹;目标记在心里面,向前进。一次一步,一步一脚印,跬步千里。
这个角色很适合现在的


posted on 2008-04-02 20:53 过河卒 阅读(545) 评论(0)  编辑  收藏 所属分类: Java/Java框架

只有注册用户登录后才能发表评论。


网站导航:
 
文章来自: http://www.blogjava.com/ponzmd/ (彭俊-过河卒) 转贴请声明!
访问统计: