随笔-28  评论-51  文章-10  trackbacks-0
05 2008 档案
focus聚类研究系列一-----熟悉现有项目基础(站在巨人的肩膀上)      摘要: 从现在开始,开始我真正的研究计划:聚类获取有价值的信息。
今天开始详细了解了已有的资源和项目代码,包含中文分词,文档向量化,现有的KA+K-MEANS聚类算法。但是据观察,聚类效果上不是很满意,主要是类簇的关键字抽取不够准确,特征选择尚未考虑,聚类精度需要提高。
以下是现有系统的流程图:明天开始到下周末,研究
1.ka+k-means,其他k-means方法,找出系统不足点
2.研究特征选择方法,提高聚类前数据的质量  阅读全文
posted @ 2008-05-09 22:22 fullfocus 阅读(624) | 评论 (2)  编辑
K-MEANS,AHC, single path直观演示---Clustering Web Search Results      摘要: K-MEANS,AHC, single path直观演示---Clustering Web Search Results  阅读全文
posted @ 2008-05-08 15:21 fullfocus 阅读(624) | 评论 (0)  编辑
TF-IDF解释      摘要: google的数学之美 系列九 -- 如何确定网页和查询的相关性
主要讲解TF-IDF技术,与判断查询相关性。  阅读全文
posted @ 2008-05-07 15:38 fullfocus 阅读(2593) | 评论 (0)  编辑
召回率与精度      摘要: 一直搞不清搜索引擎的查全率和查准率是什么意思,只知道这两个是衡量一个搜索引擎性能的. 今个 看一篇 南大的学士论文的时候, 又碰到这个问题. 所以决定把他搞清楚, 上百度搜了一下, 所获很多.   阅读全文
posted @ 2008-05-07 14:35 fullfocus 阅读(2358) | 评论 (4)  编辑