叶明的javablog

java学习天堂,个人关于其他blog:blog.javaworker.cn,欢迎大家访问
posts - 64, comments - 50, trackbacks - 0, articles - 3

Lucene(2.4.1)技术研究(3)--Document源代码

Posted on 2009-03-30 16:17 天空苍茫 阅读(1595) 评论(3)  编辑  收藏 所属分类: java知识

1、Document文件

Document是lucene自己定义的一种文件格式,lucene使用docement来代替对应的物理文件或者保存在数据库中的数据。因此Document只能作为数据源在Lucene中的数据存贮的一种文件形式。

Document只是负责收集数据源,因为不同的文件可以构建同一个Document。只要用户将不同的文件创建成Document类型的文件,Lucene就能快速找到查找并且使用他们。

对于一个Document文件,可以同时增加多个Field。Lucene中对于每个数据源是使用Field类来表示的。多个Field组成一个Document,多个Document组成一个索引文件。Document与Field关系如果一所示

 

此时,我们去看看Document这个类的源代码。Document采用默认不带参数的构造函数,但是我们他在创建的时间,
        产生两个变量:
fields和 boost

其中fields是创建了一个arrayList,其主要是保存Field类

Boost主要是设置该doc的优先级

其方法:add(Fieldable field)增加一个field对象

    removeField(String name)  根据name移除一个ield对象(找到一个就返回)

removeFields(String name)  根据name移除所有的field对象

Field getField(String name)  根据名字找到该Field对象。

Fieldable getFieldable(String name)  根据名字找到Fieldable子类(Fieldable是 接口,具体有Filed来实现)

String get(String name) 根据名字,找到给Filed对象中包含的内容

public final byte[] getBinaryValue(String name) 主要查找Doc中包含有二进制field 数据(如果不存在,则返回null)
    public final List getFields() 直接返回该Doc中包含的Field。
    

Feedback

# re: Lucene(2.4.1)技术研究(3)--Document源代码  回复  更多评论   

2009-03-30 21:28 by 胜客
.

# re: Lucene(2.4.1)技术研究(3)--Document源代码  回复  更多评论   

2009-03-31 09:21 by 李子涵
恩`~最近偶也在研究Lucene``想做个搜索引擎看看效果`可以共同讨论一下``

# re: Lucene(2.4.1)技术研究(3)--Document源代码  回复  更多评论   

2009-03-31 10:58 by lovajava_ye
呵呵,一起学习

只有注册用户登录后才能发表评论。


网站导航: