Lucene的切词 analysis包

在搜索引擎中，切词语是一个重要的部分，其中包括专有名词的提取、词的分割、词的格式化等等。
TokenStream 类几乎是所有这些类的基类
有两个需要被子类实现的方法Token next() 和 close()
首先来看analysis包，这个包主要是提供一些简单的词汇化处理
以Tokenizer结尾的类是将要处理的字符串进行分割成Token流，而根据分割的依据的又产生了以下几个Tokenizer类
首先Tokenizer类是所有以Tokenizer结尾的类的基类
然后是CharTokenizer，所有的以Tokenizer结尾的类都是从这个类继承的
这个类中有一个抽象方法
protected abstract boolean isTokenChar(char c);
另外一个需要被子类覆写的方法
  protected char normalize(char c) {}；
是对单个字符进行处理的方法譬如说将英文字母全部转化为小写

还有一个变量
protected Reader input;
这个读取器是这些类所处理的数据的   数据源
输入一个Reader ，产生一个Token流

这个方法是是否进行切分的依据，依次读取char流，然后用这个方法对每个char进行检测，如果返回false则将预先存储在
词汇缓冲区中的char数组作为一个Token返回
LetterTokenizer ：
      protected boolean isTokenChar(char c) {
              return Character.isLetter(c);
      }
WhitespaceTokenizer：
      protected boolean isTokenChar(char c) {
             return !Character.isWhitespace(c);
     }
LowerCaseTokenizer extends LetterTokenizer：
protected char normalize(char c) {
      return Character.toLowerCase(c);
   }
   在构造函数中调用super(in);进行和 LetterTokenizer同样的操作，但是在词汇化之前所有的词都转化为小写了

然后是以Filter结尾的类，这个类簇主要是对已经词汇化的Token流进行进一步的处理
输入是Token流 , 输出仍然是Token流。
TokenFilter extends TokenStream 是所有这些类的父类
protected TokenStream input;
在TokenFilter 中有一个TokenStream 变量，是Filter类簇处理的数据源，而Filter类簇又是继承了TokenStream 类的
有一个public final Token next()方法,这个方法以TokenStream.next()产生的Token流为处理源，产生的仍然是Token流
只不过中间有一些处理的过程
LowerCaseFilter：将所有的Token流的转化为小写
     t.termText = t.termText.toLowerCase();
StopFilter：过滤掉一些停止词，这些停止词由构造函数指定
     for (Token token = input.next(); token != null; token = input.next())
      if (!stopWords.contains(token.termText))
        return token;

比较一下Tokenizer类簇和Filter类簇，可以知道
Tokenizer类簇主要是对输入的Reader流，实际上是字符流按照一定的规则进行分割，产生出Token流
其输入是字符串的Reader流形式，输出是Token流

Filter类簇主要是对输入的Token流进行更进一步的处理，如去除停止词，转化为小写
主要为一些格式化操作。
由于Filter类簇的输入输出相同，所以可以嵌套几个不同的Filter类，以达到预期的处理目的。
前一个Filter类的输出作为后一个Filter类的输入
而Tokenizer类簇由于输入输出不同，所以不能嵌套

posted on 2008-05-30 14:47 晓宇阅读(1063) 评论(1) 编辑收藏所属分类: LUCENE

# re: Lucene的切词 analysis包 2009-06-02 12:56 啊啊啊

强，真是我需要的回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Lucene的切词 analysis包关于IndexWriter中的3个性能参数 Lucene索引文件的格式 org.apache.lucene.index.SegmentInfos org.apache.lucene.index.SegmentInfo org.apache.lucene.store.RAMInputStream org.apache.lucene.store.RAMOutputStream org.apache.lucene.store.RAMFile org.apache.lucene.store.OutputStream org.apache.lucene.store.FSDirectory

# re: Lucene的切词 analysis包 2009-06-02 12:56 啊啊啊

csusky

导航

留言簿(2)

随笔分类

随笔档案

阅读排行榜

评论排行榜

常用链接

统计

最新评论

Lucene的切词 analysis包

评论