Nutch 相关 (三) Nutch的分词的架构
摘要: Nutch分词的最底层使用的是lucene的Analyzer抽象类,它位于org.apache.lucene.analysis包中, NutchAnalyzer继承了Analyzer类、实现了Configurable、Pluggable接口,该抽象类中定义了一个公有的抽象方法 tokenStream(String fieldName, Reader reader)返回的类型是TokenStream。
阅读全文
Nutch 相关 (二)分词的算法
摘要: 说到Nutch中要使用中文分词,因为中文分词程序的速度很快,需要分词的每篇文章字数不会达到需要占用其很长时间的程度。因此,对于每篇文章分词的请求可以看作是大量短小线程的请求,此时使用线程池技术是非常合适的,它可以极大减小线程的创建和销毁次数,提高程序的工作效率。
阅读全文
Nutch 相关 (一) 爬虫的研究
摘要: Nutch是支持插件扩展的,这样就可以满足各个不同使用群体的特定需求,例如是要做垂直搜索,并收集特定信息的收集
阅读全文