经验不在于年限,在于积累---专注互联网软件开发

把工作当事业做,把项目当作品做!

  BlogJava :: 首页 :: 联系 :: 聚合  :: 管理
  55 Posts :: 0 Stories :: 66 Comments :: 0 Trackbacks

Spider+Lucene+solr+nutch

     摘要: Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。
本文以爬取天涯论坛的所有版面信息为例,介绍Web-Harvest的用法。
  阅读全文
posted @ 2009-09-22 11:58 hankchen 阅读(10395) | 评论 (6)  编辑