北大ppt 文本挖掘技术系列之二---TextMining03-检索part1 - 专注创造价值 - BlogJava

随笔-28 评论-51 文章-10 trackbacks-0

北大ppt 文本挖掘技术系列之二---TextMining03-检索part1

文本检索技术摘要

信息检索模型	内容模型	Boolean	集合论（Fuzzy, extends boolean）
		Vector	代数论(VSM, GVSM,LSI, Neural networks）
		Probabilistic	概率论（推理网络，置信网,语言模型，查询扩展）
	结构模型
	浏览模型
检索质量评价	查全率
	查准率
	F-measure
	其他评价（前10结果等）
全文检索的索引技术	倒排（哈希，B-tree…）
	倒排索引创建（两趟算法）
潜在语义索引（LSI）	原理
	SVD
	适用环境（静态，动态）
	SVD分解降维
	SVD变换空间（相似度等）
	实例

http://www.blogjava.net/Files/fullfocus/TextMining03.pdf

该文对LSI的分析十分到位，还有详细的实例。

对索引的创建，很多思想可以借鉴：1. 大数据时，分批排序，再多路合并 2. 分块写入内存。 3.编码压缩（HUFFMAN等）

posted on 2008-06-12 23:12 fullfocus 阅读(2570) 评论(4) 编辑收藏所属分类: 聚类算法研究

评论:

# re: 北大ppt 文本挖掘技术系列之二---TextMining03-检索part1 2008-06-13 01:54 | 深圳听涛酒店

effect 回复更多评论

# re: 北大ppt 文本挖掘技术系列之二---TextMining03-检索part1 2008-06-13 09:40 | 代理163

不错，谢谢了～～～回复更多评论

# re: 北大ppt 文本挖掘技术系列之二---TextMining03-检索part1 2008-06-13 12:57 | ~上善若水~

传智播客 & ajax全套独家发布

1.ajax 入门

2.ajax 原理

3.ajax 简单实例

4.ajax 无限级联动菜单

5.ajax 简易聊天室

6.ajax 开源框架简介

7.DWR 框架源码分析一

8.DWR 框架源码分析二

9.DWR 框架源码分析三

10.DWR 框架源码分析四

11.DWR框架源码分析五

12.SSH + DWR完成商城驱动

13. Extjs 简介

14 Extjs  简单实例

15.SSH + Extjs 开发系列之OA一

16. SSH + Extjs 开发系列之OA二

17. SSH + Extjs 开发系列之OA三

18. SSH + Extjs 开发系列之OA四

19 .SSH + Extjs 开发系列之OA五

20. SSH + Extjs 开发系列之OA六

21. SSH + Extjs 开发系列之OA七

22. SSH + Extjs 开发系列之OA八

23.SSH + Extjs 开发系列之OA九

24.SSH + Extjs 开发系列之OA十

25. ajax 前景之我见

下载地址:http://www.ibeifeng.com/read.php?tid=2338&u=5043 回复更多评论

# re: 北大ppt 文本挖掘技术系列之二---TextMining03-检索part1 2009-02-24 03:12 | mercy

？？？？？？
回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: 北大ppt 文本挖掘技术系列之五--TextMining05-聚类北大ppt 文本挖掘技术系列之四---TextMining04-分类北大ppt 文本挖掘技术系列之三---TextMining03-检索part2 北大ppt 文本挖掘技术系列之二---TextMining03-检索part1 北大ppt 文本挖掘技术系列之一---TextMining02-特征提取---(附：海明距离) focus聚类研究系列一-----熟悉现有项目基础（站在巨人的肩膀上） K-MEANS,AHC, single path直观演示---Clustering Web Search Results TF-IDF解释召回率与精度