泰仔在线

java学习,心情日记,缤纷时刻

posts - 100, comments - 34, trackbacks - 0, articles - 0

留言簿(3)

随笔分类

收藏夹

文档教程(3)

Database相关

Oracle调优总结
Oracle调优总结

Enet 冲浪

Java 技术

Linux相关

搜索

阅读排行榜

nutch抓取动态网页

Posted on 2010-04-24 19:06 泰仔在线阅读(2206) 评论(1) 编辑收藏所属分类: 云计算相关

解决搜索动态内容的问题：
需要注意在conf下面的2个文件：regex-urlfilter.txt，crawl-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=] （-改+）
这段意思是跳过在连接中存在? * ! @ = 的页面，因为默认是跳过所以，在动态页中存在？一般按照默认的是不能抓取到的。可以在上面2个文件中都修改成：
# skip URLs containing certain characters as probable queries, etc.
# -[?*!@=]
另外增加允许的一行
# accept URLs containing certain characters as probable queries, etc.
+[?=&]
意思是抓取时候允许抓取连接中带 ? = & 这三个符号的连接
注意：两个文件都需要修改，因为NUTCH加载规则的顺序是crawl-urlfilter.txt-> regex-urlfilter.txt

转自:nutch抓取动态网页

Feedback

# re: nutch抓取动态网页 回复 更多评论

2012-03-09 17:06 by da

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Nutch URL过滤配置规则 nutch抓取动态网页 Nutch中的html页面的解析问题 Nutch中的一些小的问题解决 Nutch插件加载分析 nutch源代码阅读心得 MapReduce算法模式 MapReduce 简介