马可波罗的梦乡

BlogJava 首页 新随笔 联系 聚合 管理
  4 Posts :: 50 Stories :: 2 Comments :: 0 Trackbacks
Luke
虽然刚刚开始,但是可以确定这是一个非常有用的工具。通过这个工具也可以更深入地了解Lucene的索引机制。
Luke具有解释文档评分机制的特性,可以帮助我们了解文档的评分机制

1、在Document标签可以看到,每个document都有对应的Flag。Flag的意义做如下摘录(之前没有这个概念啊,看这个页面才知道这个概念的)
ITSVopfOLBC
I: indexed,    T:Tokenized(是分词的意思吧。我原来设置docName需要分词,而url就不需要分词了)   S:Stored (都是存下来了吧,设置不存,会找不到记录?可以通过分词后的term找到该doc,但是docName得不到,因为没有设置为Store,貌似遇到过这个问题)
V:Term Vector(词向量?这个名词看起来有些高深...)   o: offset   p:positions
O:Omit Norms
f:Omit TF(tf是term出现的频率?)
L: Lazy 这个是干什么,删除时的标记吗? 为了提升效率好像开始删除时,并没有真正删除,而仅仅是做了一个标记。最后优化时,才会做物理删除(对Flash的处理用这种方式挺多的,可以深入研究这种机制)
posted on 2009-09-23 06:03 梦回唐朝 阅读(132) 评论(0)  编辑  收藏 所属分类: Tools

只有注册用户登录后才能发表评论。


网站导航: