http://www.blogjava.net/nianzai/
PDF文档下载
一、 概述
在网页抓取项目中通常最缺的是IP地址资源,大多数网站对抓取会做些限制(比如同一IP地址的线程数限制,再比如几分钟之内同一IP地址的页面访问次数限制)。
基于P2P模式的分布式抓取方案是利用分散在各处的可上网机器来抓取网页,可有效的突破网站限制。
二、设计图
上网客户端1 。。。上网客户端m是分散在各处能直接上网的机器,这些上网客户端机器定时向状态服务区报告自己的心跳。
抓取客户端 1 。。。抓取客户端 n 是集中放在某处的抓取机器。抓取客户端机器定时向状态服务器获取可用上网客户端列表,然后抓取客户端机器直接与上网客户端建立连接,抓取客户端机器直接通过上网客户端来抓取网页。
三、实现方案
方案一:
在上网客户端机器上安装共享上网代理软件比如ccproxy,抓取客户端以代理的方式通过上网机器抓取网页。该方案简单易行,无技术障碍。
方案二:
开发一套简化版P2P软件,抓取客户端机器将抓取请求分发给客户端机器,客户端机器将网页抓取下来传回给抓取客户端机器。该方案复杂些,但可扩展性极强。在掌握了大量上网客户端机器后完全可以做成云计算进行商业运作。
posted on 2010-12-29 15:47
nianzai 阅读(2236)
评论(2) 编辑 收藏