posts - 110,  comments - 152,  trackbacks - 0

下午配置成功了Nutch0.9.截图记录一下。

nutchsuccess

 

 

 

 

 

 

 

网络上面介绍这个配置的比较多,我就不重复劳动了。

推荐文档如下:Nutch Version 0.8x tutorial ,还有就是这里的篇日志

我在这里记录一下遇到的几个错误和解决办法,大家可能有用。

如执行如下命令:
./nutch crawl ../urls.txt  -dir ../ihooyo  -depth 5 -topN 100
参数说明:
-url 就是刚才我们创建的url文件,存放我们要抓取的网址
-dir 指定抓取内容所存放的目录,如上存在mydir中
-threads 指定并发的线程数
-depth 表示以要抓取网站顶级网址为起点的爬行深度
-topN 表示获取前多少条记录,可省

可能错误1:

Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
crawl finished: sina5

说明:指定要抓取的网址(url.txt)经过(crawl-urlfilters.xml)过滤后,已经没有可抓取对象了,检查两者的匹配即可。

可能错误2:

Dedup: starting
Dedup: adding indexes in: ../ihooyo/indexes
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:439)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)

说明:一般为./conf/nutch-site.xml文件配置有错误。请参考如下配置修改。
[xml]
<property>
<name>http.agent.name</name>
<value>ihooyo</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>apersonblog</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>www.ihooyo.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>pjuneye@qq.com</value>
<description></description>
</property>
[/xml]
这种配置错误,在log日志中可找到提示。

可能错误3:

Injector: Converting injected urls to crawl db entries.
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:162)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)

说明:一般为crawl-urlfilters.txt中配置问题,比如过滤条件应为
+^http://www.ihooyo.com ,而配置成了 http://www.ihooyo.com 这样的情况就引起如上错误。

好了写完了。



平凡而简单的人一个,无权无势也无牵无挂。一路厮杀,只进不退,死而后已,岂不爽哉!
收起对“车”日行千里的羡慕;收起对“马”左右逢缘的感叹;目标记在心里面,向前进。一次一步,一步一脚印,跬步千里。
这个角色很适合现在的


posted on 2008-04-01 17:11 过河卒 阅读(1587) 评论(0)  编辑  收藏 所属分类: Java/Java框架

只有注册用户登录后才能发表评论。


网站导航:
 
文章来自: http://www.blogjava.com/ponzmd/ (彭俊-过河卒) 转贴请声明!
访问统计: