再来1号问题:爬虫的工作过程
来个图:
动作分解:
<传言看源代码理解的更细致,不过偶没看,偶是根据文档和下午的操作总结的,错了请指正。>
1.创建空数据库Webdb:
2.向Webdb中注入入口攫取地址:
3.根据Webdb中数据生成fetchlist,并生成相应的segment。
4.根据fetchlist攫取内容(fetched content)。
5.根据获取内容更新Webdb
6.重复执行3-5.这个过程52se称为“产生/抓取/更新”循环。
7.完成上面的循环后,根据Webdb中信息,如网页评分和链接信息等,再次更新segment.
8.索引被攫取的页面,生成链接。
9.去除indexes中重复的内容和链接。
10.依靠indexes合成单一的index文件。大功告成。
上面这些步骤都可以对应到Nutch给我们提供的CrawlTool中的命令上。
爬虫忙完了,有了数据,我们就可以利用Nutch的search部分功能来查找内容了。
参考:Nutch爬虫工作流程及文件格式详细分析
平凡而简单的人一个,无权无势也无牵无挂。一路厮杀,只进不退,死而后已,岂不爽哉!
收起对“车”日行千里的羡慕;收起对“马”左右逢缘的感叹;目标记在心里面,向前进。一次一步,一步一脚印,跬步千里。
这个角色很适合现在的我。
posted on 2008-04-02 20:53
过河卒 阅读(546)
评论(0) 编辑 收藏 所属分类:
Java/Java框架