泰仔在线

java学习,心情日记,缤纷时刻

posts - 100, comments - 34, trackbacks - 0, articles - 0

Nutch的索引代码解读（一）

Posted on 2009-09-05 17:00 泰仔在线阅读(1546) 评论(1) 编辑收藏所属分类: Java 相关

关键字: nutch 索引
Nutch的索引代码解读（一）

Nutch的内部网增量缩影是可以通过recrawl脚本（nutch的wiki上有发布）进行增量更新，但是对于对于全网爬取的URL如何做到增量更新，目前来说还没有相关的方法，尤其是对于上TB级别数据的索引更新和合并，直接把Nutch似乎还有相当多的问题需要解决（比如分布式大索引分割、合并等等，在Nutch的mailing list上大家讨论了非常多，但还是没有一个合理的解决方案），因此，作者期望通过解读源码的方式来对Nutch的索引构建机制和源码做一个较为初浅的解读，以期通过修改解决Nutch的索引面临的问题，期望能得到广大网友的意见。
考虑到笔者的需求是Nutch对于海量的数据的索引，因此基于集群的方式对Nutch的源码进行解读。
本文是针对Nutch1.0而写，Nutch1.0相比0.9更多的功能采用了Map/reduce算法结构，若不是先前对MapReduce有一番了解，看起来将是非常费解。
首先：补充一点最基础的知识，就是Nutch的文件目录所包含的内容：

crawldb目录下面存放下载的URL,以及下载的日期，用来页面更新检查时间。
linkdb目录存放URL的关联关系，是下载完成后分析时创建的，通过这个关联关系可以实现类似google的pagerank功能。
segments目录存储抓取的页面，下面子目录的个数与获取页面的层数有关系。     内含有6个子目录
    content：下载页面的内容
    crawl_fetch：下载URL的状态内容
     crawl_generate：待下载的URL的集合，在generate任务生成时和下载过程中持续分析出来
    crawl_parse：存放用来更新crawldb的外部链接库
    parse_data：存放每个URL解析出来的外部链接和元数据
    parse_text：存放每个解析过的URL的文本内容
index目录存放符合lucene格式的索引目录，是indexs里所有的索引内容合并后的完整内容，这里的索引文件的内容基本与lucene的索引文件一致，但多了.nrm文件，少了lucene的.f0文件，而且是非复合索引。
indexs目录存放每次下载的索引目录，存放part-0000到part-0003

1.定位crawl.java的index入口：
Java代码
indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));

indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));
此方法完成对Segments到Indexes的索引构建
indexes-org.apache.hadoop.fs.Path luceneDir:是由lucene构建的Indexes存放的路径；
crawlDb-org.apache.hadoop.fs.Path crawlDb:是爬取的crawlDb存放在Hadoop上的路径；

linkDb-org.apache.hadoop.fs.Path, List<org.apache.hadoop.fs.Path> segments

转自：Nutch的索引代码解读（一）

Feedback

# ... 回复 更多评论

2009-11-19 10:46 by my name is your daddy

nutch 增量

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: JdkにSSLルート証明書をインストールする常用Maven plugin使用 How to get IBM Java 7 for Windows? JNLP介绍用POI的HSSF来控制EXCEL的研究 Nutch的索引代码解读（一） Nutch的命令详解 iReport和JasperReport生成PDF文件中文字体问题 SWT窗口居中 Jar使用说明和JavaDoc的使用说明

泰仔在线

导航

留言簿(3)

随笔分类

收藏夹

Database相关

Enet 冲浪

Java 技术

Linux相关

搜索

最新评论

阅读排行榜

Nutch的索引代码解读（一）

Feedback

# ... 回复 更多评论

泰仔在线

导航

留言簿(3)

随笔分类

收藏夹

Database相关

Enet 冲浪

Java 技术

Linux相关

搜索

最新评论

阅读排行榜

Nutch的索引代码解读（一）

Feedback

# ... 回复 更多评论

# ... 回复更多评论