北大ppt 文本挖掘技术系列之五--TextMining05-聚类
聚类概述
|
概念
|
|
|
|
|
应用
|
|
|
|
|
步骤
|
|
|
|
|
评价
|
|
|
|
|
聚类准则函数
|
|
|
|
|
聚类算法
[文档间距离,类间距离]
|
划分方法
|
K-means [分析,缺陷,改进]
|
|
|
|
|
K-mediods[PAM算法,CLARA算法,CLARANS算法]
|
|
|
|
|
|
层次方法
|
凝聚
|
AGNES (1990)
|
改进的层次聚类
1. Birch
2. CURE
3. ROCK
4. Chameleon
|
|
单链接,全连接,组平均链接
|
|
分裂
|
DIANA (1990)
|
|
密度方法
|
DBSCAN
|
|
|
|
OPTICS
|
|
|
|
DENCLUE
|
|
|
|
CLIQUE
|
|
|
|
|
|
网格方法
|
CLIQUE
|
|
|
|
|
|
(孤立点分析)
|
基于统计
|
|
|
|
基于距离
|
|
|
|
基于偏离
|
|
|
|
在线聚类 STC
|
|
|
|
注:对k-means的改进版介绍比较详细,另外对STC部分分析比较深刻,看来下阶段我需要身体力行下,看看STC的效果。边做边看论文吧,哈哈
http://www.blogjava.net/Files/fullfocus/05.pdf
posted on 2008-06-18 22:13
fullfocus 阅读(1825)
评论(0) 编辑 收藏 所属分类:
聚类算法研究