无为

无为则可为,无为则至深!

  BlogJava :: 首页 :: 联系 :: 聚合  :: 管理
  190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks
Data Warehouse本世纪80年代中期,"数据仓库之父"William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。Data mart数据集市,或者叫做"小数据仓库"。如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只是面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库和多维分析的概念,即OLAP。Codd提出OLAP的12条准则来描述OLAP系统:准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力推测准则4 稳定的报表能力准则5 客户/服务器体系结构准则6 维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多用户支持能力准则准则9 非受限的跨维操作准则10 直观的数据操纵准则11 灵活的报表生成准则12 不受限的维与聚集层次ROLAP基于Codd的12条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(star schema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的OLAP称为Relational OLAP,简称ROLAP。代表产品有Informix Metacube、Microsoft SQL Server OLAP Services。MOLAPArbor Software严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。被人们称为Muiltdimension OLAP,简称MOLAP,代表产品有Hyperion(原Arbor Software) Essbase、Showcase Strategy等。Client OLAP相对于Server OLAP而言。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有Brio Designer,Business Object。DSS决策支持系统(Decision Support System),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据和信息,经过加工整理,来为企业决策管理层提供信息,为决策者的决策提供依据。ETL数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。Ad hoc query即席查询,数据库应用最普遍的一种查询,利用数据仓库技术,可以让用户随时可以面对数据库,获取所希望的数据。EIS领导信息系统(Executive Information System),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。BPR业务流程重整(Business Process Reengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作,数据仓库的重要作用之一。BI商业智能(Business Intelligence),指数据仓库相关技术与应用的通称。指利用各种智能技术,来提升企业的商业竞争力。Data Mining数据挖掘,Data Mining是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策CRM客户关系管理(Customer Relationship Management),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲,CRM其实应该算是一个古老的"应用"了。比如,酒店对客人信息的管理,如果某个客人是某酒店的老主顾,那么该酒店很自然地会知道这位客人的某些习惯和喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间和服务。这就是一种CRM。Meta Data元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。
书写数据仓库规格的技巧
一个典型的用户访问会在OLTP应用程序上进行,访问的最终目的上,为了收集用户的一些特别的,单独的需求。同时,这个访问也可以分析一些进程或者一些用户知道的进程以便将这些知识实现成IT进程。但是,在数据仓库应用程序中,它的工作不是替代或者修改一个存在的进程,它是揭开用户潜在的知识。讽刺的是,这让这个访问看起来象一个工具。 $程歑傗?t  
^{U偰箴?  
?歒纞=衷?  
困难是存在的,因为用户初次都不知道什么叫商业智能并且不能清楚的意识到自己需要什么。下面有一些关于挖掘用户潜能的建议,它可以让进程变的简单。
nL閹偯墧?  
>鴭)注F??  
想想什么是你需要的
)4?麋f  
曃X髸糗琉  
睊鹡S倐懗?  
  对于你来说,问一个确定需要什么的问题非常困难,那么你可以想像一下被访问者有多么笨拙。他们有一些模糊的观点,他们无法清楚的表达自己需要什么,但是,你可以猜测。他们潜在的发明相关的东西是稍微有点投机的。你如何知道他们分析建议的商业优先级?当然,通常情况下你不能,至少在最初的时候不能。通过猜测来完成你的进程,你会发现每个你完成的工作都非常满意,但是非常的渺小。不要让自己有落空的感觉,这个很正常。
僌^+k蘳  
]?d縃  
k囤p!騘?q  
三个比两个好
鏇塝`檚鬄?  
当一个用户描述他们在一个分析程序中想要一些什么,那么这个建议通常都会深入到进程中心并且会深入到一些巨大的板块中,这些板块你可能并不熟悉。那么,你如何了解他们在说什么呢?你可以做笔记,记下你发现进程的轨迹,并思考下一个指导性的问题,立刻提问吗?你大概不可以。因为这个不会和你以前的工作一样简单,最好带个同僚在身边,一个问问题,一个做笔记。这样,你可以聚精会神,并可以在对话中创造直接进入主题的机会。
郁揼*镔柎|  
s珼`c=?iJ  
四个比三个好
钋L<鸬  
为了更好的提问,你需要有一个助手帮助你记录,不过,对于用户来说,他也需要一个人在他身边,这样会更有效的思考问题。他们可以一起思考潜在的可能性,想起对方没有想起的事情。让他们自由交谈对于你来说是一个机会,你可以更清楚的了解什么是你想要的,并让你的合作者记录下来。
鵝$漛錼t  
鑤($Y禃  
鯷A紎炣  
清除新数据资源
~賉峙?貊o  
当在分析数据源的时候,开发队伍会自然的依靠物理资源。IT工作者都趋向相信这些队伍;可用的数据在可用的介质上找到,对吗?但是,用户却不是这么想。对于一个整天处理决策的雇员来说,数据来自于他的电脑,杂志和日志,Web是上的新闻,卫星电视。对于他们来说,IT工作者列出的规则对他们来说是无关紧要的。你需要听从你的用户的。他们使用的数据是他们需要的,无论是否适合IT。如果他们从一本收到的杂志中获得了一些重要的工业信息,并且这个影响了他们需要的分析进程,然后,你的工作就是捕获这个事实并找出信息包含的东西并将它放入信息仓库。这个不是开玩笑,但是,这确实是他们获得信息的原因。
毮pㄎ桼  
⑷厍3??  
zP痋1岰  
商业结局
p?D摋X鈸k  
  当你需要的信息和事实上的进程相差太远,并且是推理性的,你已经在那些进程中做的非常的好了。通常,匆忙的决定是适当的,因为在你身边有人帮助你保持应用程序的轨迹,如果你的思路不混乱的话。他们会纠正你遗漏的地方。但是,利用这些分析程序,你出来一个脱离安全网的阶级。如果你没有商业关系,你可以写OLAP进程,它可以提供用户所需要的,但是有遗漏的。所以,你需要的不止是了解分析数据的进程,而且需要深入了解这些进程。如果有需要,和他人的进度会面将填满你整个空隙,甚至不会直接符合你的规格。
?狙rcmr曗  
6妙T▔?  
勇"3f@摧2  
获得更多
y5Wz亡朡B?  
在OLTP世界,当需要的时候你做一个或者多个会面。你期待它;他们忍受它。在OLAP世界,可能会有多个会面,这变成了一种礼节。一旦你开了门,他们会要求你进行访谈。不要惊讶。试图进入到其中的进程,并且,如果用户不知道是在干什么,请礼貌的中止他们。



凡是有该标志的文章,都是该blog博主Caoer(草儿)原创,凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。

posted on 2006-06-24 14:44 草儿 阅读(163) 评论(0)  编辑  收藏 所属分类: Data Warehouse

只有注册用户登录后才能发表评论。


网站导航: