JAVA—咖啡馆

——欢迎访问rogerfan的博客，常来《JAVA——咖啡馆》坐坐，喝杯浓香的咖啡，彼此探讨一下JAVA技术，交流工作经验，分享JAVA带来的快乐！本网站部分转载文章，如果有版权问题请与我联系。

语源科技BlogJava

管理

447 Posts :: 145 Stories :: 368 Comments :: 0 Trackbacks

lucene整理1 -- 概念

1. 概述
Lucene是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。Lucene以其方便使用、快速实施以及灵活性受到广泛的关注。它可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能，本总结使用lucene--2.3.2。

2. lucene 的包结构
1、org.apache.lucene.analysis对需要建立索引的文本进行分词、过滤等操作, 语言分析器，主要用于的切词Analyzer是一个抽象类，管理对文本内容的切分词规则。

2、org.apache.lucene.analysis.standard是标准分析器

3、org.apache.lucene.document提供对Document和Field的各种操作的支持。索引存储时的文档结构管理，类似于关系型数据库的表结构。Document相对于关系型数据库的记录对象，Field主要负责字段的管理。

4、org.apache.lucene.index是最重要的包，用于向Lucene提供建立索引时各种操作的支持。索引管理，包括索引建立、删除等。索引包是整个系统核心，全文检索的根本就是为每个切出来的词建索引，查询时就只需要遍历索引，而不需要去正文中遍历，从而极大的提高检索效率。

5、org.apache.lucene.queryParser提供检索时的分析支持。查询分析器，实现查询关键词间的运算，如与、或、非等。

6、org.apache.lucene.search 负责检索。检索管理，根据查询条件，检索得到结果。

7、org.apache.lucene.store提供对索引存储的支持。数据存储管理，主要包括一些底层的I/0操作。

8、org.apache.lucene.util提供一些常用工具类和常量类的支持

3. 索引文件格式
a) .fnm格式包含了Document中所有field名称

b) .fdt与.fdx格式 .fdt文件用于存储具有Store.YES属性的Field的数据；.fdx是一个索引，用于存储Document在.fdt中的位置。

c) .tis 与.tii格式 .tis文件用于存储分词后的词条（Term），而.tii就是它的索引文件，它表明了每个.tis文件中的词条的位置。

d) deletable格式文档被删除后，会首先在deletable文件中留下一个记录，要真正删除时，才将索引除去。

e) 复合索引格式 .cfs

使用IndexWriter的useCompoundFile() 默认为True

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/xiaoping8411/archive/2010/03/23/5409940.aspx

posted on 2010-06-21 10:04 rogerfan 阅读(225) 评论(0) 编辑收藏所属分类: 【开源技术】

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: 【转】微信公众号开发之微信模板消息【转】微信公众平台开发之模板消息(Java) 【转】Memcached-1.4.4-14 For Win32 or Win64 安装【转】windows+nginx+memcached+tomcat做负载均衡【转】windows任务定时重启tomcat 【转】CDN缓存那些事【转】CAS实现SSO单点登录原理【转】CAS框架配置详解【转】nginx1.8.1(稳定版本) nginx.conf 配置文件详解二【转】nginx1.8.1(稳定版本) ngixn.conf 配置文件详解一

JAVA—咖啡馆

公告

常用链接

留言簿(17)

随笔分类(542)

随笔档案(438)

文章分类(182)

文章档案(142)

新闻分类

※→ 【JAVA文档】

※→ 【亲人博客】

※→ 【休闲娱乐】

※→ 【友情链接】

※→ 【学习网站】

※→ 【服务网站】

※→ 【著名网站】

※→ 【阿里博客】

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜