Lucene 2.1研究：检索 - Easy Net (Lucene && SOA)

Lucene 2.1研究：检索

检索前，需要对检索字符串进行分析，这是由QueryParser来完成的。为了保证查询的正确性，最好用创建索引文件时同样的分析器。QueryParser解析字符串时，可以指定查询域，实际可以在字符串中指定一个或多个域。例如：“Info:电视台 AND ID:3329”，“Info:电视台”，“电视台”，假如不指定默认域，就会在默认域查询。

QueryParser调用静态方法Parse后会返回Query的实例，原子查询。例如：“Info:电视台 AND ID:3329”会返回BooleanQuery，“Info:电视台”或“电视台”会返回PhraseQuery，“台”会返回TermQuery。

Lucene内建Query对象：

TermQuery：词条查询。通过对某个词条的指定，实现检索索引中存在该词条的所有文档。

BooleanQuery：布尔查询。Lucene中包含逻辑关系：“与”，“或”，“非”的复杂查询，最终都会表示成BooleanQuery。布尔查询就是一个由多个子句和子句之间组成的布尔逻辑所组成的查询。

RangeQuery：范围查询。这种范围可以是日期，时间，数字，大小等等。

PrefixQuery：前缀查询。

PhraseQuery：短语查询。默认为完全匹配，但可以指定坡度（Slop，默认为0）改变范围。比如Slop=1，检索短语为“电台”，那么在“电台”中间有一个字的也可以被查找出来，比如“电视台”。

MultiPhraseQuery：多短语查询。

FuzzyQuery：模糊查询。模糊查询使用的匹配算法是levenshitein算法。此算法在比较两个字符串时，将动作分为3种：加一个字母（Insert），删一个字母（Delete），改变一个字母（Substitute）。

WildcardQuery：通配符查询。“*”号表示0到多个字符，“？”表示单个字符。

SpanQuery：跨度查询。此类为抽象类。

SpanTermQuery：检索效果完全同TermQuery，但内部会记录一些位置信息，供SpanQuery的其它API使用，是其它属于SpanQuery的Query的基础。

SpanFirstQuery：查找方式为从Field的内容起始位置开始，在一个固定的宽度内查找所指定的词条。

SpanNearQuery：功能类似PharaseQuery。SpanNearQuery查找所匹配的不一定是短语，还有可能是另一个SpanQuery的查询结果作为整体考虑，进行嵌套查询。

SpanOrQuery：把所有SpanQuery查询结果综合起来，作为检索结果。

SpanNotQuery：从第一个SpanQuery查询结果中，去掉第二个SpanQuery查询结果，作为检索结果。

BooleanClause用于表示布尔查询子句关系的类，包括：BooleanClause.Occur.MUST，BooleanClause.Occur.MUST_NOT，BooleanClause.Occur.SHOULD。有以下6种组合：

1．MUST和MUST：取得连个查询子句的交集。

2．MUST和MUST_NOT：表示查询结果中不能包含MUST_NOT所对应得查询子句的检索结果。

3．MUST_NOT和MUST_NOT：无意义，检索无结果。

4．SHOULD与MUST、SHOULD与MUST_NOT：SHOULD与MUST连用时，无意义，结果为MUST子句的检索结果。与MUST_NOT连用时，功能同MUST。

5．SHOULD与SHOULD：表示“或”关系，最终检索结果为所有检索子句的并集。

posted on 2007-06-20 16:50 Terry Liang 阅读(1803) 评论(1) 编辑收藏所属分类: Lucene 2.1研究

常用链接

留言簿(4)

随笔分类(12)

随笔档案(17)

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问
相关文章: 正在修改基于Java Lucene 2.3.2的.Net Framework 3.5版本 Lucene 2.1研究：发布NLucene-2.1 Lucene 2.1研究：对字符的判断 Lucene 2.1研究：检索 Lucene 2.1研究：文件存储 Lucene 2.1研究：倒排序基本常识 Lucene 2.1研究：索引文件格式说明基于Lucene 2.1研究：时间的处理基于Lucene 2.1的研究：Lucene.Net版本Bug修改 Lucene数据索引搜索示例