re: 全切分分词程序,能实现中英文数字混合分词 nianzai 2012-07-16 18:15
QQ:383138070
re: 全切分分词程序,能实现中英文数字混合分词 nianzai 2012-07-16 18:14
这个现在需要手工分发。
nut 目前只是一个设计参考,想应用的同学可以直接在上面修改应用。如果计划应用的话,本人无条件提供技术支持,第一时间根据实际情况修改代码。
呵呵,测试代码有个 Thread.sleep(8*1000); 这是等待初始化的,所以容易误解为搜索时间很长.
katta发布的时候应该是还没有hbase的
nut 和 katta 是有点像,但是 是两个完全不一样的东西
nut并不用M/R来排序,用M/R来排序的话并发是上不来的
nut是通过各个搜索服务器来实现本地搜索再在nut client端进行合并排序
违背了hadoop的设计理念?
不知道为什么这么说?
同一组服务器里服务器上的索引是不相同的,同一组服务器共同构成一个完整的大索引
搜索的时候并不搜索hdfs上的索引,那样性能非常差,是要分发到搜索服务器上的进行本地搜索
Nut目前还是alpha版,因需要有大量的机器所以目前还没有这样的条件来实际使用该框架
全局评分的实现大概是这样的:
每次搜索要分二次。第一次搜索得到文档总数和文档词频。第二次搜索再将第一次搜索的结果作为参数。
所以并发必定会下降一半的。
这种方式并不好。作者认为比较好的方式是按内容切分索引。这样两者都能有比较好的兼顾。nut在下一个版本alpha8时,会采用这种方式。
是的,nut目前还不能实现全局评分,以后可能会做一个可选的。如果实现全局评分的话,并发会下降一半的