前言
也许您用过cognos等数据挖掘工具,但我很遗憾的告诉您那只是一个功能强大的自定义报表展现工具。
数据挖掘(DM,Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在的有用信息和知识的过程。还有很多和这一术语相近的术语,如从数据库中发现知识(KDD)、数据分析、知识抽取、商业智能、决策分析等。 这里最重要的不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观或宏观的统计、分析、综合和推理,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
数据挖掘的数据来源
1、关系数据库:日常运行的业务系统拥有大量的数据库
2、数据仓库
3、事务数据库:把一个或几个事务数据库集中到一个只读的数据挖掘库
4、高级数据库及高级数据库的应用:CAD空间数据库、文本数据库、空间数据库、多媒体数据库等
数据挖掘的体系结构与运行过程
代
|
特征
|
数据挖掘算法
|
集成
|
分布计算模型
|
数据模型
|
第一代
|
数据挖掘作为一个独立的应用
|
支持一个或者多个算法
|
独立的系统
|
单个机器
|
向量数据
|
第二代
|
和数据库以及数据仓库集成
|
多个算法,能够挖掘一次不能放进内存的数据
|
数据管理系统,包括数据库和数据仓库
|
局部区域的计算机集群
|
有些系统支持对象、文本和连续的媒体数据
|
第三代
|
和预言模型系统集成
|
多个算法
|
数据管理和预言模型系统
|
Internet/Extranet网络计算
|
支持半结构化数据和Web数据
|
第四代
|
和移动数据/各种计算数据联合
|
多个算法
|
数据管理、预言模型、移动系统
|
移动和各种计算设备
|
普遍存在的计算模型
|
数据挖掘的分类
1、分类分析:主要用于预测模型,通过数据库中的某些数据得到另外的数据为目标。分类算法通过判断数据记录的属性与已知训练数据中风险程度的关系给出预言结果
2、聚类分析:聚类用于从数据集中找出相似的数据并组成不同的组。与前面的预测模型不同,聚类中没有明显的目标变量作为数据的属性存在。聚类算法通过检测数据判断“隐藏属性”
3、关联规则:目的在于生成部分数据的概要,寻找数据子集间的关联关系或者一些数据与其数据之间的派生关系
4、人工神经网络
5、遗传算法
6、模糊集和模糊逻辑
7、可视化方法
数据挖掘的步骤
1、问题定义:明确实际工作对数据挖掘的需求、通过对各种学习算法的对比而确定可用的学习算法
2、数据收集和预处理:数据准备、数据集成、数据清洗、数据变换、数据简化
3、数据挖掘算法执行:确定挖掘任务后,就要决定使用什么样的算法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要与之相关的算法来挖掘;二是用户或实际运行系统的要求
4、结果的解释和评估:数据挖掘阶段发现出来的模式,经过评估,可能存在冗余和无关的模式,需要将其剔除。也有可能模式不满足用户要求,这时需要整个过程回退到前一阶段
数据挖掘与OLAP
数据挖掘与OLAP都属于分析型工具,数据挖掘是一种挖掘型工具,它能自动地发现隐藏在数据中的模式,作出预测性分析的分析工具,它的分析过程是自动的。用户不必提出确切的问题。数据挖掘所处的位置较深
OLAP是自上而下、不断深入的分析工具,并以可视化的方式呈现给用户。OLAP更多依靠用户输入问题和假设,但用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。OLAP位于较浅的层次
尽管数据挖掘与OLAP存在着上面的差异,但二者相辅相成
Open View 决策分析平台会在2010-2011年推出
posted on 2009-09-02 16:26
彭明华 阅读(252)
评论(1) 编辑 收藏 所属分类:
OpenHandX产品