Posted on 2008-03-25 15:46
qiyadeng 阅读(1110)
评论(0) 编辑 收藏
数据挖掘中的任务大致包括以下几个方面:
1、分类:通过一个带有类标记的训练数据集,建立一个分类模型,通过对一系列属性的考察,可以对对象的类型进行预测,这是有监督的学习;
2、估计,例如:分析消费模型,估计个人收入和孩子数目;
3、预言,例如:根据个人教育、当前工作、行业趋势、预言2009年的工资;
4、密切性发掘,例如:关联规则发掘和相关性分析
5、聚集:主要针对没有类标记的数据,建立一个归类模型,让同一类的对象有尽量大的相似性,不同类的对象有尽量大的差异,这是无监督的学习;
6、偏差分析;
7、异常检测:发现不同于正常模式的数据,多用于风险规避、入侵检测。
(关于监督学习和非监督学习,请查看Machine Learning, Part I: Supervised and Unsupervised Learning或是译文)
数据挖掘中的步骤为:
1、数据规范化(消除错误和不一致的数据)和集成(从不同数据源提取数据);
2、数据选择和变换(提取任务相关数据,根据需要转换成统一的、适合挖掘的形式);
3、数据挖掘(使用合适的算法,在有效的时间内完成);
4、模式评估(根据某种兴趣度量,识别表示知识的真正有趣的模式);
5、数据挖掘结论的表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。