从现在开始,开始我真正的研究计划:聚类获取有价值的信息。
今天开始详细了解了已有的资源和项目代码,包含中文分词,文档向量化,现有的KA+K-MEANS聚类算法。但是据观察,聚类效果上不是很满意,主要是类簇的关键字抽取不够准确,特征选择尚未考虑,聚类精度需要提高。
以下是现有系统的流程图:明天开始到下周末,研究
1.ka+k-means,其他k-means方法,找出系统不足点
2.研究特征选择方法,提高聚类前数据的质量
posted on 2008-05-09 22:22
fullfocus 阅读(627)
评论(2) 编辑 收藏 所属分类:
聚类算法研究