Posted on 2007-01-30 14:10
王睿 阅读(450)
评论(0) 编辑 收藏 所属分类:
搜索技术
建立索引的三大步
1.
数据转换
Lucene
只支持text格式,所以要想对其他非text格式的文档建立索引,首先的进行转换。转换后生成Document对象。
2.
Document
分析
Document
分析的过程是一个规范化,去糟粕取精华的过程。比如:全部转为小写(Wang到wang),转为原型(running到run),去除连接词(a、an、的)等等。
3.
写索引文件
以反向索引的数据结构存储。