随笔-23  评论-58  文章-0  trackbacks-0
http://www.blogjava.net/nianzai/

PDF文档下载

一、 概述
在网页抓取项目中通常最缺的是IP地址资源,大多数网站对抓取会做些限制(比如同一IP地址的线程数限制,再比如几分钟之内同一IP地址的页面访问次数限制)。
基于P2P模式的分布式抓取方案是利用分散在各处的可上网机器来抓取网页,可有效的突破网站限制。

二、设计图

上网客户端1 。。。上网客户端m是分散在各处能直接上网的机器,这些上网客户端机器定时向状态服务区报告自己的心跳。

抓取客户端 1 。。。抓取客户端 n 是集中放在某处的抓取机器。抓取客户端机器定时向状态服务器获取可用上网客户端列表,然后抓取客户端机器直接与上网客户端建立连接,抓取客户端机器直接通过上网客户端来抓取网页。

 

三、实现方案

方案一:
在上网客户端机器上安装共享上网代理软件比如ccproxy,抓取客户端以代理的方式通过上网机器抓取网页。该方案简单易行,无技术障碍。


方案二:
开发一套简化版P2P软件,抓取客户端机器将抓取请求分发给客户端机器,客户端机器将网页抓取下来传回给抓取客户端机器。该方案复杂些,但可扩展性极强。在掌握了大量上网客户端机器后完全可以做成云计算进行商业运作。

posted on 2010-12-29 15:47 nianzai 阅读(2235) 评论(2)  编辑  收藏

评论:
# re: 基于P2P模式的分布式抓取方案 2010-12-30 11:40 | 水星家纺
该方案复杂些,但可扩展性极强。在掌握了大量上网客户端机器后完全可以做成云计算进行商业运作。

  回复  更多评论
  
# re: 基于P2P模式的分布式抓取方案 2010-12-30 12:30 | 打底裤
该方案复杂些,但可扩展性极强。在掌握了大量上网客户端机器后完全可以做成云计算进行商业运作。  回复  更多评论
  

只有注册用户登录后才能发表评论。


网站导航: