随笔-28  评论-51  文章-10  trackbacks-0
北大ppt 文本挖掘技术系列之五--TextMining05-聚类



聚类概述

概念

 

 

 

 

应用

 

 

 

 

步骤

 

 

 

 

评价

 

 

 

 

聚类准则函数

 

 

 

 

聚类算法

[文档间距离,类间距离]

划分方法

K-means [分析,缺陷,改进]

 

 

 

 

K-mediods[PAM算法,CLARA算法,CLARANS算法]

 

 

 

 


层次方法

凝聚

AGNES (1990)

改进的层次聚类

1.       Birch

2.       CURE

3.       ROCK

4.       Chameleon


单链接,全连接,组平均链接


分裂

DIANA (1990)

 

密度方法

DBSCAN

 

 

 

OPTICS

 

 

 

DENCLUE

 

 

 

CLIQUE

 

 

 

 


网格方法

CLIQUE

 

 

 

 


(孤立点分析)

基于统计

 

 

 

基于距离

 

 

 

基于偏离

 

 

 

在线聚类 STC

 

 

 

 

注:对k-means的改进版介绍比较详细,另外对STC部分分析比较深刻,看来下阶段我需要身体力行下,看看STC的效果。边做边看论文吧,哈哈
http://www.blogjava.net/Files/fullfocus/05.pdf

posted on 2008-06-18 22:13 fullfocus 阅读(1821) 评论(0)  编辑  收藏 所属分类: 聚类算法研究

只有注册用户登录后才能发表评论。


网站导航: