无为

无为则可为,无为则至深!

  BlogJava :: 首页 :: 联系 :: 聚合  :: 管理
  190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

一、 时代的挑战 檛犫虎鏈?d  
  近十几年来 , 人们利用信息技术生产和搜集数据的能力大幅度提高 , 千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等 , 这一势头仍将持续发展下去。于是 , 一个新的挑战被提了出来 : 在这被称之为信息爆炸的时代 , 信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没 , 从中及时发现有用的知识 , 提高信息利用率呢 ? 要想使数据真正成为一个公司的资源 , 只有充分利用它为公司自身的业务决策和战略发展服务才行 , 否则大量的数据可能成为包袱 , 甚至成为垃圾。因此 , 面对 " 人们被数据淹没 , 人们却饥饿于知识 " 的挑战 , 数据挖掘和知识发现 (DMKD) 技术应运而生 , 并得以蓬勃发展 , 越来越显示出其强大的生命力。 學畑??y? 
[[潚;w:? 
  数据挖掘 (Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中 , 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语 , 如从数据库中发现知识 (KDD) 、数据分析、数据融合 (Data Fusion) 以及决策支持等。人们把原始数据看作是形成知识的源泉 , 就像从矿石中采矿一样。原始数据可以是结构化的 , 如关系数据库中的数据 , 也可以是半结构化的 , 如文本、图形、图像数据 , 甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的 , 也可以是非数学的 ; 可以是演绎的 , 也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等 , 还可以用于数据自身的维护。因此 , 数据挖掘是一门很广义的交叉学科 , 它汇聚了不同领域的研究者 , 尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。 癅7景鞬L? 
墐贩!U;徫l  
  特别要指出的是 , 数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用 , 而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理 , 以指导实际问题的求解 , 企图发现事件间的相互关联 , 甚至利用已有的数据对未来的活动进行预测。 4i}y櫂w?  
)蕊V吱膣I  
二、 研究现状 峻6&?琟  
+ P%阏?? 
   KDD 一词首次出现在 1989 8 月举行的第 11 届国际联合人工智能学术会议上。迄今为止 , 由美国人工智能协会主办的 KDD 国际研讨会已经召开了 7 , 规模由原来的专题讨论会发展到国际学术大会 , 人数由二三十人到七八百人 , 论文收录比例从 2X1 6X1, 研究重点也逐渐从发现方法转向系统应用 , 并且注重多种发现策略和技术的集成 , 以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一 , 成为当前计算机科学界的一大热点。

  此外 , 数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD 专题或专刊。 IEEE Knowledge and Data Engineering 会刊领先在 1993 年出版了 KD D 技术专刊 , 所发表的 5 篇论文代表了当时 KDD 研究的最新成果和动态 , 较全面地论述了 KDD 系统方法论、发现结果的评价、 KDD 系统设计的逻辑方法 , 集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题 ,KDD 系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别 , 以及相应的基本对策。 6 篇论文摘要展示了 KDD 在从建立分子模型到设计制造业的具体应用。   瑞奔身?靬  
?烪?餌[5  
  不仅如此 , Internet 上还有不少 KDD 电子出版物 , 其中以半月刊 Knowledge Discove ryNuggets 最为权威 , 另一份在线周刊为 DS*(DS 代表决策支持 ),1997 10 7 日开始出版。在网上 , 还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论 DMKD 的热点问题。而领导整个潮流的 DMKD 开发和研究中心 , 当数设在美国 EMDEN IBM 公司开发部。 至于 DMKD 书籍 , 可以在任何计算机书店找到十多本 , 但大多带有商业色彩。 S*@%蛮0$2  
?V橛牶#  
三、内容和本质 ?RCKO葺  
橣鐲?垫p? 
  随着 DMKD 研究逐步走向深入 , 人们越来越清楚地认识到 ,DMKD 的研究主要有 3 个技术支柱 , 即数据库、人工智能和数理统计。   {鮣珧 ?樗  
胥?L ?  
  数据库技术在经过了 80 年代的辉煌之后 , 已经在各行各业成为一种数据库文化或时尚 , 数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外 , 已经在开始反思。数据库最实质的应用仅仅是查询吗 ? 理论根基最深的关系数据库最本质的技术进步点 , 就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶 , 发现才是数据库的主人 ; 数据只为职员服务 , 不为老板服务 ! 这是很多单位的领导在热心数据库建设后发出的感叹。   F(?滽鑻  
篛}uX卐  
  由于数据库文化的迅速普及 , 用数据库作为知识源具有坚实的基础 ; 另一方面 , 对于一个感兴趣的特定领域——客观世界 , 先用数据库技术将其形式化并组织起来 , 就会大大提高知识获取起点 , 以后从中发掘或发现的所有知识都是针对该数据库而言的。因此 , 在需求的驱动下 , 很多数据库学者转向对数据仓库和数据挖掘的研究 , 从对演绎数据库的研究转向对归纳数据库的研究。   Q8 哔>  
牽餖bh熟?=  
  专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 , 目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界 , 通过人脑的思维活动积累了大量有用信息。

  在研制一个专家系统时 , 知识工程师首先要从领域专家那里获取知识 , 这一过程实质上是归纳过程 , 是非常复杂的个人到个人之间的交互过程 , 有很强的个性和随机性。因此 , 知识获取成为专家系统研究中公认的瓶颈问题。 字z:棅畝  
u藖?lt;奁q?  
  其次 , 知识工程师在整理表达从领域专家那里获得的知识时 , if-then 等类的规则表达 , 约束性太大 , 用常规数理逻辑来表达社会现象和人的思维活动局限性太大 , 也太困难 , 勉强抽象出来的规则有很强的工艺色彩 , 差异性极大 , 知识表示又成为一大难题。 ?躷,菚h  
j?l譓t.  
  此外 , 即使某个领域的知识通过一定手段获取并表达了 , 但这样做成的专家系统对常识和百科知识出奇地贫乏 , 而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum 估计 , 一般人拥有的常识存入计算机大约有 100 万条事实和抽象经验法则 , 离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据 " 在某地发现一只刚死的波斯猫 " 的情报很快断定敌高级指挥所的位置 , 而再好的军事专家系统也难以顾全到如此的信息。 m?-喒j#? 
撀緳葎  
  以上这 3 大难题大大限制了专家系统的应用 , 使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理 , 尤其是从事机器学习的科学家们 , 不再满足自己构造的小样本学习模式的象牙塔 , 开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本 , 也走上了数据挖掘的道路。 伥"殓0  
5+?"銎? 
  数理统计是应用数学中最重要、最活跃的学科之一 , 它在计算机发明之前就诞生了 , 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具 , 已成为信息咨询业的基础。信息时代 , 咨询业更为发达。然而 , 数理统计和数据库技术结合得并不算快 , 数据库查询语言 SQL 中的聚合函数功能极其简单 , 就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求 , 概率论和数理统计就获得了新的生命力 , 所以才会在 DMKD 这个结合点上 , 立即呈现出 " 忽如一夜春风来 , 千树万树梨花开 " 的繁荣景象。一向以数理统计工具和可视化计算闻名的美国 SA S 公司 , 领先宣布进入 DMKD 行列。 郋僤救搹1}  
?緐yv?%-  
  数据挖掘所能发现的知识有如下几种 : 广义型知识 , 反映同类事物共同性质的知识 ; 特征型知识 , 反映事物各方面的特征知识 ; 差异型知识 , 反映不同事物之间属性差别的知识 ; 关联型知识 , 反映事物之间依赖或关联的知识 ; 预测型知识 , 根据历史的和当前的数据推测未来数据 ; 偏离型知识 , 揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现 , 随着概念树的提升 , 从微观到中观再到宏观 , 以满足不同用户、不同层次决策的需要。 擄?侩巸 O  
n鳩?q? 
四、发展方向 #t罉\  
橕€?/騳  
  当前 ,DMKD 研究正方兴未艾 , 预计在 21 世纪还会形成更大的高潮 , 研究焦点可能会集中到以下几个方面 : 研究专门用于知识发现的数据挖掘语言 , 也许会像 SQL 语言一样走向形式化和标准化 ; 寻求数据挖掘过程中的可视化方法 , 使得知识发现的过程能够被用户理解 , 也便于在知识发现过程中的人机交互 ; 研究在网络环境下的数据挖掘技术 , 特别是在 Int ernet 上建立 DMKD 服务器 , 与数据库服务器配合 , 实现数据挖掘 ; 加强对各种非结构化数据的挖掘 , 如文本数据、图形图像数据、多媒体数据。但是 , 无论怎样 , 需求牵引 , 市场驱动是永恒的 ,DMKD 将首先满足信息时代用户的急需 , 大量基于 DMKD 的决策支持软件工具产品将会问世



凡是有该标志的文章,都是该blog博主Caoer(草儿)原创,凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。

posted on 2006-06-24 14:59 草儿 阅读(154) 评论(0)  编辑  收藏 所属分类: BI and DM

只有注册用户登录后才能发表评论。


网站导航: