Luke
虽然刚刚开始,但是可以确定这是一个非常有用的工具。通过这个工具也可以更深入地了解Lucene的索引机制。
Luke具有解释文档评分机制的特性,
可以帮助我们了解文档的评分机制。
1、在Document标签可以看到,
每个document都有对应的Flag。Flag的意义做如下摘录(之前没有这个概念啊,看这个页面才知道这个概念的)
ITSVopfOLBC
I: indexed, T:Tokenized(是分词的意思吧。
我原来设置docName需要分词,而url就不需要分词了) S:Stored (都是存下来了吧,设置不存,会找不到记录?可以通过分词后的term找到该doc,但是docName得不到,因为没有设置为Store,
貌似遇到过这个问题)
V:Term Vector(
词向量?这个名词看起来有些高深...) o: offset p:positions
O:Omit Norms
f:Omit TF(
tf是term出现的频率?)
L: Lazy 这个是干什么,删除时的标记吗?
为了提升效率好像开始删除时,并没有真正删除,而仅仅是做了一个标记。最后优化时,才会做物理删除(
对Flash的处理用这种方式挺多的,可以深入研究这种机制)