北大ppt 文本挖掘技术系列之一---TextMining02-特征提取---(附：海明距离)

TextMining02-特征提取.pdf
分词	最大匹配法..	分词歧义和各种数字，日期，姓名识别
	最大概率法
	最短路径法
词性标注	基于规则的词性标注
词性标注	基于统计的词性标注（及缺陷）
文档模型	布尔模型
	向量空间模型（tf-idf）
	文档概率模型
文本相似性计算	基于概率模型的相似度（Okapi收费）
	基于vsm的相似度计算（基于内积，和集合相似度计算的比较）	欧氏距离
		向量内积相似度
		余弦相似度
		Jaccard相似度
文本序列	海明距离
	编辑距离
	编辑操作的代价（算法）
特征空间的变化	LSA隐形语义分析
	SVD思想、步骤。（truncated）
	SVD实例和工具

PS:
海明距离在文本序列的相似度比较上会比较有用。

海明距离。通常一帧包括m个数据（报文）位和r个冗余位或者校验位。设整个长度为n（即n=m+r），则此长度为n的单元通常被称作n位码字(codeword)。

给出任意两个码字，如10001001和10110001，可以确定它们有多少个对应位不同。在此例中有3位不同。为了确定有多少位不同，只须对两个码字做异或运算，然后计算结果中1的个数。两个码字中不同位的个数，称为海明距离(Hamming Distance)。其重要性在于，假如两个码字具有海明距离d，则需要d个位差错才能将其中一个码字转换成另一个。
一种编码的校验和纠错能力取决于它的海明距离。为检测出d比特错，需要使用d+1的编码；因为d个单比特错决不可能将一个有效的码字转变成另一个有效的码字。当接收方看到无效的码字，它纠能明白发生传输错误。同样，为了纠正d比特错，必须使用距离为2d+1的编码，这是因为有效码字的距离远到即使发生d个变化，这个发生了变化的码字仍然比其它码字都接近原始码字。作为纠错码的一个简单例子，考虑如下只有4个有效码字的代码： 0000000000、0000011111、1111100000和1111111111这种代码的距离为5，也就是说，它能纠正双比特错。假如码字 0000000111到达后，接收方知道原始码字应该为0000011111。但是，如果出现了三位错，而将0000000000变成了 0000000111，则差错将不能正确地纠正。

http://www.blogjava.net/Files/fullfocus/featureselect.pdf

posted on 2008-06-09 20:38 fullfocus 阅读(1692) 评论(0) 编辑收藏所属分类: 聚类算法研究

常用链接

留言簿(2)

随笔分类

随笔档案

文章档案

他山之石

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: 北大ppt 文本挖掘技术系列之五--TextMining05-聚类北大ppt 文本挖掘技术系列之四---TextMining04-分类北大ppt 文本挖掘技术系列之三---TextMining03-检索part2 北大ppt 文本挖掘技术系列之二---TextMining03-检索part1 北大ppt 文本挖掘技术系列之一---TextMining02-特征提取---(附：海明距离) focus聚类研究系列一-----熟悉现有项目基础（站在巨人的肩膀上） K-MEANS,AHC, single path直观演示---Clustering Web Search Results TF-IDF解释召回率与精度