随笔-23  评论-58  文章-0  trackbacks-0

我的评论

QQ:383138070
这个现在需要手工分发。
参考正向最大匹配中文分词算法
nut 目前只是一个设计参考,想应用的同学可以直接在上面修改应用。如果计划应用的话,本人无条件提供技术支持,第一时间根据实际情况修改代码。
呵呵,测试代码有个 Thread.sleep(8*1000); 这是等待初始化的,所以容易误解为搜索时间很长.
katta发布的时候应该是还没有hbase的
nut 和 katta 是有点像,但是 是两个完全不一样的东西
nut并不用M/R来排序,用M/R来排序的话并发是上不来的

nut是通过各个搜索服务器来实现本地搜索再在nut client端进行合并排序
违背了hadoop的设计理念?

不知道为什么这么说?
同一组服务器里服务器上的索引是不相同的,同一组服务器共同构成一个完整的大索引

搜索的时候并不搜索hdfs上的索引,那样性能非常差,是要分发到搜索服务器上的进行本地搜索
Nut目前还是alpha版,因需要有大量的机器所以目前还没有这样的条件来实际使用该框架
全局评分的实现大概是这样的:
每次搜索要分二次。第一次搜索得到文档总数和文档词频。第二次搜索再将第一次搜索的结果作为参数。
所以并发必定会下降一半的。

这种方式并不好。作者认为比较好的方式是按内容切分索引。这样两者都能有比较好的兼顾。nut在下一个版本alpha8时,会采用这种方式。
是的,nut目前还不能实现全局评分,以后可能会做一个可选的。如果实现全局评分的话,并发会下降一半的