下午配置成功了Nutch0.9.截图记录一下。
网络上面介绍这个配置的比较多,我就不重复劳动了。
推荐文档如下:Nutch Version 0.8x tutorial ,还有就是这里的篇日志。
我在这里记录一下遇到的几个错误和解决办法,大家可能有用。
如执行如下命令:
./nutch crawl ../urls.txt -dir ../ihooyo -depth 5 -topN 100
参数说明:
-url 就是刚才我们创建的url文件,存放我们要抓取的网址
-dir 指定抓取内容所存放的目录,如上存在mydir中
-threads 指定并发的线程数
-depth 表示以要抓取网站顶级网址为起点的爬行深度
-topN 表示获取前多少条记录,可省
可能错误1:
Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
crawl finished: sina5
说明:指定要抓取的网址(url.txt)经过(crawl-urlfilters.xml)过滤后,已经没有可抓取对象了,检查两者的匹配即可。
可能错误2:
Dedup: starting
Dedup: adding indexes in: ../ihooyo/indexes
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:439)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)
说明:一般为./conf/nutch-site.xml文件配置有错误。请参考如下配置修改。
[xml]
<property>
<name>http.agent.name</name>
<value>ihooyo</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>apersonblog</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>www.ihooyo.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>pjuneye@qq.com</value>
<description></description>
</property>
[/xml]
这种配置错误,在log日志中可找到提示。
可能错误3:
Injector: Converting injected urls to crawl db entries.
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
at org.apache.nutch.crawl.Injector.inject(Injector.java:162)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)
说明:一般为crawl-urlfilters.txt中配置问题,比如过滤条件应为
+^http://www.ihooyo.com ,而配置成了 http://www.ihooyo.com 这样的情况就引起如上错误。
好了写完了。
平凡而简单的人一个,无权无势也无牵无挂。一路厮杀,只进不退,死而后已,岂不爽哉!
收起对“车”日行千里的羡慕;收起对“马”左右逢缘的感叹;目标记在心里面,向前进。一次一步,一步一脚印,跬步千里。
这个角色很适合现在的我。
posted on 2008-04-01 17:11
过河卒 阅读(1584)
评论(0) 编辑 收藏 所属分类:
Java/Java框架