随笔-28  评论-51  文章-10  trackbacks-0
TextMining04-分类.pdf

自动分类的概念

 

分类效果的评价

 

P,R,F, 每个类的评价指标,总体类评价(宏观、微观)

 

特征抽取(feature extraction)

预处理

文本表示(vsm

特征选择(Feature Selection)

特征重构(Re-parameterisation,如LSI)

文档频率法(DF, document frequency

 

*TFIDF型权重

TFTF*IDF: TFC: 对上面进行归一化,LTC: 降低TF的作用

*Robertson & SparckJones(idf) 公式,相关表,熵等,互信息不佳

 

信息增益法information gain

 

互信息法mutual information

 

The X2 test(chi-square)

 

分类算法

 

KNN

 

 

*

Rocchio方法

SVM

 

注意: 特征重构(LSI),互信息表现不佳,TF*IDF的变形公式,SVM
http://www.blogjava.net/Files/fullfocus/04.pdf
posted on 2008-06-18 10:47 fullfocus 阅读(1711) 评论(0)  编辑  收藏 所属分类: 聚类算法研究

只有注册用户登录后才能发表评论。


网站导航: