网络爬虫原理

Posted on 2010-02-02 22:29 Gavin.lee 阅读(466) 评论(0) 编辑收藏所属分类: 经验&常识

搜索引擎使用网络爬虫寻找网络内容，网络上的HTML文档使用超链接连接了起来，就像织成了一张网，网络爬虫也叫网络蜘蛛，顺着这张网爬行，每到一个网页就用抓取程序将这个网页抓下来，将内容抽取出来，同时抽取超链接，作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬，这个起点叫做种子，你可以告诉它，也可以到一些网址列表网站上获取
网页抓取/数据抽取/信息提取软件工具包MetaSeeker是一套完整的解决方案，里面有定题网络爬虫，也叫聚焦网络爬虫，这种爬虫抓取下来一个页面后并不抽取所有的超链接，而是只找主题相关的链接，笼统的说就是爬行的范围是受控的。网络爬虫实现代码主要集中在MetaSeeker工具包中的DataScraper工具。可以从 gooseeker网站下载下来看

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: ucweb和opera工作原理的差别【摘】设置IE查看源文件时默认打开的编辑器【转】 Tomcat JspFactory的异常的原因及解决办法关于MyEclipse中的Tomcat启动的问题【Tomcat JDK name error】 win-xp 自动关机脚本【古老的记忆】 Office 2007 Word 打开故障 - "The setup controller has encountered a problem during instll" MyEclipse 后台进程一直运行"computing additional info"的解决办法 MyEclipse 一直 initializing java tooling······ MyEclipse 代码提示（“@”自动提示） org.hibernate.hql.ast.QuerySyntaxException（我的流水账）

无线&移动互联网技术研发

网络爬虫原理

日历

常用链接

留言簿(13)

我参与的团队

随笔档案(19)

文章分类(277)

文章档案(282)

收藏夹(7)

友情链接

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜