文本检索技术摘要
信息检索模型
|
内容模型
|
Boolean
|
集合论(Fuzzy,
extends boolean)
|
|
Vector
|
代数论(VSM,
GVSM,LSI, Neural networks)
|
|
Probabilistic
|
概率论(推理网络,置信网,语言模型,查询扩展)
|
|
结构模型
|
|
|
|
浏览模型
|
|
|
|
检索质量评价
|
查全率
|
|
|
|
|
查准率
|
|
|
|
|
F-measure
|
|
|
|
|
其他评价(前10结果等)
|
|
|
|
全文检索的索引技术
|
倒排(哈希,B-tree…)
|
|
|
|
|
倒排索引创建(两趟算法)
|
|
|
|
潜在语义索引(LSI)
|
原理
|
|
|
|
SVD
|
|
|
|
适用环境(静态,动态)
|
|
|
|
SVD分解降维
|
|
|
|
SVD变换空间(相似度等)
|
|
|
|
实例
|
|
|
|
http://www.blogjava.net/Files/fullfocus/TextMining03.pdf
该文对LSI的分析十分到位,还有详细的实例。
对索引的创建,很多思想可以借鉴:1. 大数据时,分批排序,再多路合并 2. 分块写入内存。 3.编码压缩(HUFFMAN等)
posted on 2008-06-12 23:12
fullfocus 阅读(2559)
评论(4) 编辑 收藏 所属分类:
聚类算法研究