TextMining04-分类.pdf
自动分类的概念
|
|
分类效果的评价
|
P,R,F, 每个类的评价指标,总体类评价(宏观、微观)
|
特征抽取(feature
extraction)
|
预处理
|
文本表示(vsm)
|
特征选择(Feature
Selection)
特征重构(Re-parameterisation,如LSI)
|
文档频率法(DF,
document frequency)
|
*TFIDF型权重
TF,TF*IDF:
,TFC: 对上面进行归一化,LTC: 降低TF的作用
*Robertson & SparckJones(idf) 公式,相关表,熵等,互信息不佳
|
信息增益法information gain
|
互信息法mutual
information
|
The X2 test(chi-square)
|
分类算法
|
KNN
|
|
*
Rocchio方法
|
SVM
|
注意: 特征重构(LSI),互信息表现不佳,TF*IDF的变形公式,SVM
http://www.blogjava.net/Files/fullfocus/04.pdf
posted on 2008-06-18 10:47
fullfocus 阅读(1707)
评论(0) 编辑 收藏 所属分类:
聚类算法研究