摘要: 关键字: nutch 命令
Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下:
1. Crawl
Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。
2. Readdb
Readdb命令是“org.apache.nutch.crawl.CrawlDbReader”的别称,返回或者导出Crawl数据库(crawldb)中的信息。
3. readlinkdb
它是"org.apache.nutch.crawl.LinkDbReader"的别称,导出链接库中信息或者返回其中一个URL信息。
4. inject
它是"org.apache.nutch.crawl.Injector"的别称,注入新URL到crawldb中。
5. generate
它是“org.apache.nutch.crawl.Generator”,从Cra
阅读全文