一、
时代的挑战
檛犫虎鏈?d
近十几年来
,
人们利用信息技术生产和搜集数据的能力大幅度提高
,
千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等
,
这一势头仍将持续发展下去。于是
,
一个新的挑战被提了出来
:
在这被称之为信息爆炸的时代
,
信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没
,
从中及时发现有用的知识
,
提高信息利用率呢
?
要想使数据真正成为一个公司的资源
,
只有充分利用它为公司自身的业务决策和战略发展服务才行
,
否则大量的数据可能成为包袱
,
甚至成为垃圾。因此
,
面对
"
人们被数据淹没
,
人们却饥饿于知识
"
的挑战
,
数据挖掘和知识发现
(DMKD)
技术应运而生
,
并得以蓬勃发展
,
越来越显示出其强大的生命力。
學畑??y?
[[潚;w:?
数据挖掘
(Data Mining)
就是从大量的、不完全的、有噪声的、模糊的、随机的数据中
,
提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语
,
如从数据库中发现知识
(KDD)
、数据分析、数据融合
(Data Fusion)
以及决策支持等。人们把原始数据看作是形成知识的源泉
,
就像从矿石中采矿一样。原始数据可以是结构化的
,
如关系数据库中的数据
,
也可以是半结构化的
,
如文本、图形、图像数据
,
甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的
,
也可以是非数学的
;
可以是演绎的
,
也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等
,
还可以用于数据自身的维护。因此
,
数据挖掘是一门很广义的交叉学科
,
它汇聚了不同领域的研究者
,
尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
癅7景鞬L?
墐贩!U;徫l
特别要指出的是
,
数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用
,
而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理
,
以指导实际问题的求解
,
企图发现事件间的相互关联
,
甚至利用已有的数据对未来的活动进行预测。
4i}y櫂w?
)蕊V吱膣I
二、
研究现状
峻6&?琟
+ P%阏??
KDD
一词首次出现在
1989
年
8
月举行的第
11
届国际联合人工智能学术会议上。迄今为止
,
由美国人工智能协会主办的
KDD
国际研讨会已经召开了
7
次
,
规模由原来的专题讨论会发展到国际学术大会
,
人数由二三十人到七八百人
,
论文收录比例从
2X1
到
6X1,
研究重点也逐渐从发现方法转向系统应用
,
并且注重多种发现策略和技术的集成
,
以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一
,
成为当前计算机科学界的一大热点。
此外
,
数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了
KDD
专题或专刊。
IEEE
的
Knowledge and Data Engineering
会刊领先在
1993
年出版了
KD D
技术专刊
,
所发表的
5
篇论文代表了当时
KDD
研究的最新成果和动态
,
较全面地论述了
KDD
系统方法论、发现结果的评价、
KDD
系统设计的逻辑方法
,
集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题
,KDD
系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别
,
以及相应的基本对策。
6
篇论文摘要展示了
KDD
在从建立分子模型到设计制造业的具体应用。
瑞奔身?靬
?烪?餌[5
不仅如此
,
在
Internet
上还有不少
KDD
电子出版物
,
其中以半月刊
Knowledge Discove ryNuggets
最为权威
,
另一份在线周刊为
DS*(DS
代表决策支持
),1997
年
10
月
7
日开始出版。在网上
,
还有一个自由论坛
DM Email Club,
人们通过电子邮件相互讨论
DMKD
的热点问题。而领导整个潮流的
DMKD
开发和研究中心
,
当数设在美国
EMDEN
的
IBM
公司开发部。
至于
DMKD
书籍
,
可以在任何计算机书店找到十多本
,
但大多带有商业色彩。
S*@%蛮0$2
?V橛牶#
三、内容和本质
?RCKO葺
橣鐲?垫p?
随着
DMKD
研究逐步走向深入
,
人们越来越清楚地认识到
,DMKD
的研究主要有
3
个技术支柱
,
即数据库、人工智能和数理统计。
{鮣珧 ?樗
胥?L ?
数据库技术在经过了
80
年代的辉煌之后
,
已经在各行各业成为一种数据库文化或时尚
,
数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外
,
已经在开始反思。数据库最实质的应用仅仅是查询吗
?
理论根基最深的关系数据库最本质的技术进步点
,
就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶
,
发现才是数据库的主人
;
数据只为职员服务
,
不为老板服务
!
这是很多单位的领导在热心数据库建设后发出的感叹。
F(?滽鑻
篛}uX卐
由于数据库文化的迅速普及
,
用数据库作为知识源具有坚实的基础
;
另一方面
,
对于一个感兴趣的特定领域——客观世界
,
先用数据库技术将其形式化并组织起来
,
就会大大提高知识获取起点
,
以后从中发掘或发现的所有知识都是针对该数据库而言的。因此
,
在需求的驱动下
,
很多数据库学者转向对数据仓库和数据挖掘的研究
,
从对演绎数据库的研究转向对归纳数据库的研究。
Q8 哔>
牽餖bh熟?=
专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统
,
目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界
,
通过人脑的思维活动积累了大量有用信息。
在研制一个专家系统时
,
知识工程师首先要从领域专家那里获取知识
,
这一过程实质上是归纳过程
,
是非常复杂的个人到个人之间的交互过程
,
有很强的个性和随机性。因此
,
知识获取成为专家系统研究中公认的瓶颈问题。
字z:棅畝
u藖?lt;奁q?
其次
,
知识工程师在整理表达从领域专家那里获得的知识时
,
用
if-then
等类的规则表达
,
约束性太大
,
用常规数理逻辑来表达社会现象和人的思维活动局限性太大
,
也太困难
,
勉强抽象出来的规则有很强的工艺色彩
,
差异性极大
,
知识表示又成为一大难题。
?躷,菚h
j?l譓t.
此外
,
即使某个领域的知识通过一定手段获取并表达了
,
但这样做成的专家系统对常识和百科知识出奇地贫乏
,
而人类专家的知识是以拥有大量常识为基础的。人工智能学家
Feigenbaum
估计
,
一般人拥有的常识存入计算机大约有
100
万条事实和抽象经验法则
,
离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据
"
在某地发现一只刚死的波斯猫
"
的情报很快断定敌高级指挥所的位置
,
而再好的军事专家系统也难以顾全到如此的信息。
m?-喒j#?
撀緳葎
以上这
3
大难题大大限制了专家系统的应用
,
使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理
,
尤其是从事机器学习的科学家们
,
不再满足自己构造的小样本学习模式的象牙塔
,
开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本
,
也走上了数据挖掘的道路。
伥"殓0
5+?"銎?
数理统计是应用数学中最重要、最活跃的学科之一
,
它在计算机发明之前就诞生了
,
迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具
,
已成为信息咨询业的基础。信息时代
,
咨询业更为发达。然而
,
数理统计和数据库技术结合得并不算快
,
数据库查询语言
SQL
中的聚合函数功能极其简单
,
就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求
,
概率论和数理统计就获得了新的生命力
,
所以才会在
DMKD
这个结合点上
,
立即呈现出
"
忽如一夜春风来
,
千树万树梨花开
"
的繁荣景象。一向以数理统计工具和可视化计算闻名的美国
SA S
公司
,
领先宣布进入
DMKD
行列。
郋僤救搹1}
?緐yv?%-
数据挖掘所能发现的知识有如下几种
:
广义型知识
,
反映同类事物共同性质的知识
;
特征型知识
,
反映事物各方面的特征知识
;
差异型知识
,
反映不同事物之间属性差别的知识
;
关联型知识
,
反映事物之间依赖或关联的知识
;
预测型知识
,
根据历史的和当前的数据推测未来数据
;
偏离型知识
,
揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现
,
随着概念树的提升
,
从微观到中观再到宏观
,
以满足不同用户、不同层次决策的需要。
擄?侩巸 O
n鳩?q?
四、发展方向
#t罉\
橕€?/騳
当前
,DMKD
研究正方兴未艾
,
预计在
21
世纪还会形成更大的高潮
,
研究焦点可能会集中到以下几个方面
:
研究专门用于知识发现的数据挖掘语言
,
也许会像
SQL
语言一样走向形式化和标准化
;
寻求数据挖掘过程中的可视化方法
,
使得知识发现的过程能够被用户理解
,
也便于在知识发现过程中的人机交互
;
研究在网络环境下的数据挖掘技术
,
特别是在
Int ernet
上建立
DMKD
服务器
,
与数据库服务器配合
,
实现数据挖掘
;
加强对各种非结构化数据的挖掘
,
如文本数据、图形图像数据、多媒体数据。但是
,
无论怎样
,
需求牵引
,
市场驱动是永恒的
,DMKD
将首先满足信息时代用户的急需
,
大量基于
DMKD
的决策支持软件工具产品将会问世
凡是有该标志的文章,都是该blog博主Caoer(草儿)原创,凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。