focus聚类研究系列一-----熟悉现有项目基础（站在巨人的肩膀上） - 专注创造价值

随笔-28 评论-51 文章-10 trackbacks-0

从现在开始，开始我真正的研究计划：聚类获取有价值的信息。
今天开始详细了解了已有的资源和项目代码，包含中文分词，文档向量化，现有的KA+K-MEANS聚类算法。但是据观察，聚类效果上不是很满意，主要是类簇的关键字抽取不够准确，特征选择尚未考虑，聚类精度需要提高。
以下是现有系统的流程图：明天开始到下周末，研究
1.ka+k-means，其他k-means方法，找出系统不足点
2.研究特征选择方法，提高聚类前数据的质量

posted on 2008-05-09 22:22 fullfocus 阅读(635) 评论(2) 编辑收藏所属分类: 聚类算法研究

评论:

# re: focus聚类研究系列一-----熟悉现有项目基础（站在巨人的肩膀上） 2008-08-08 13:32 | zr

请问这是什么系统啊，是对网页的聚类吗回复更多评论

# re: focus聚类研究系列一-----熟悉现有项目基础（站在巨人的肩膀上）[未登录] 2010-06-10 16:31 | Bill

怎么判断关键词抽取不够精确呢？请楼主说说你的依据回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: 北大ppt 文本挖掘技术系列之五--TextMining05-聚类北大ppt 文本挖掘技术系列之四---TextMining04-分类北大ppt 文本挖掘技术系列之三---TextMining03-检索part2 北大ppt 文本挖掘技术系列之二---TextMining03-检索part1 北大ppt 文本挖掘技术系列之一---TextMining02-特征提取---(附：海明距离) focus聚类研究系列一-----熟悉现有项目基础（站在巨人的肩膀上） K-MEANS,AHC, single path直观演示---Clustering Web Search Results TF-IDF解释召回率与精度

常用链接

留言簿(2)

随笔分类

随笔档案

文章档案

他山之石

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜