目 录
A. 快速建库方法论浏览
1.什么是数据仓库
2.建立数据仓库的业务理由
3.建立数据仓库的技术理由
4.数据仓库的技术特征
5.确认业务需要和数据仓库的目标
6.关键成功因素
B. SAS快速建立数据仓库方法论的细节
1.业务驱动
2.收集需求的研讨会
3.快速应用开发 (RAD)
C.方法论的框架
--------------------------------------------------------------------------------
A. 快速建库方法论浏览
一个企业在开发和实施数据仓库时,使用一个高效和经验证的方法论是关键的,这一点已是十分清楚的了。考虑到这一点,多年来SAS研究、发展和改进了经验证的实施数据仓库的方法论,我们称之为快速建库方法论。本文件的这一节将描述这个方法论。
1.什么是数据仓库?
一个数据仓库通常是一个分散的数据存储,在其中信息是存为这样的一种形式,它适合于业务智能化和决策支持系统。数据可能是以不同形式存储的,它并不影响OLTP系统的运作。
数据仓库的建立是用一种循环的逐步完善的过程而不是一步完善的。数据仓库通常是与解决企业不断改变的组织问题的全过程有关。
数据仓库通常是围绕主题建立的。主题就是企业感兴趣的论题,比如部门、活动和操作结果。数据仓库的结构是由数据仓库应满足的应用决定的。快速提交信息是成功实施数据仓库的关键。由于这一点,就引入了象数据集市和信息集市这些概念。数据集市是数据仓库的一个子集,它通常更为概括,以满足对关心数据的查询有比数据仓库本身更快的速度。信息集市存储可用视窗器(viewer)显示的预处理的信息。
在信息集市中常包含以下几类信息:
报告输出(打印的文本、图形等)
多媒体介质 (录象和录音)内容的记录
电子表单
2.建立数据仓库的业务理由
数据仓库为管理者和业务用户提供真正决策支持的基础。企业为这些业务用户存储了多年的信息,但是数据仓库提供专为他们设计的有构架的信息。数据仓库实施的最初阶段往往要解决现成的业务问题(即较为被动的),而以后的实施常是更为主动的。数据仓库的一个强项是它支持对数据的随时需要的查询和进行未计划的数据探索的需要。就是说,数据仓库给业务用户以不同方法分析数据的能力和自由度,而不受预先设定的一组报告的限制。
3.建立数据仓库的技术理由
建立数据仓库最共同的技术理由是企业现用的信息技术结构不能满意地满足业务需要。过去,信息技术集中于运作系统,它保证业务过程运行所必须的任务的自动化。但是,运作系统一般不能很好地满足决策支持的需要。一个运作系统典型的有多个事务处理(transaction)的应用构成,每个应用使部门的一个过程和功能自动化。在运作系统中,每个事务和每一分钟的业务细节都记录在与事务应用关联的数据库中。
事务系统的设计要考虑将部门运作需要的细节信息有效地进入系统。有效性的要求导致应用开发者实现高度规范的数据和在存档发生之前就必须决定作为应用的一部分有多少数据可存储。虽然运作系统对日常业务活的支持是非常有效的,但他们对于运用常规的软件技术支持报表制作、决策和行政信息系统并不是很好的。他们的侧重点是在数据的存储,很少提供访问数据和将数据变为有用决策信息的工具。
运作系统和数据仓库是完全不同的。内容是不同的,结构是不同的,硬件和软件的需求是不同的,管理是不同的和用户是不同的。数据仓库的存储是设计得能提供决策支持信息的。它由业务应用数据来构建,但数据要先经过提取,再进行过滤、校验并组织到反映单位需要的主题中去。
数据仓库的数据是经过一段时间的收集,并用于比较、趋势分析和预测的。
若用运作系统存储的数据做决策支持,将会遇到以下的一些问题:
决策要求对历史数据进行比较、趋势分析和预测。这些信息通常在运作系统中是无法得到的。
数据必须从运作数据存区中提取。随着时间推移,这些提取也增长和扩大。数据的可靠性、有效性和通用性都是无法确定的,因为创建各种分析需要的复本时已生成了原始数据源的多个复本和多个不同水平的数据子集。
在运作系统中的数据是按一个特殊的活动而格式化的,它并不考虑单位决策的需要。从多个运作数据库中得到的数据需要提取和处理,这使得很难顾及单位的要求。为了作出可靠的业务决策或者回答简单的业务问题,分析工作者必须花费大量的时间从不同的数据源中局部化或整合有关的信息。
运作系统是经常更新的。当数据经常改变时,就难于对企业的问题作出一致的回答。而回答的经常改变会混淆决策过程。
运作系统对大量细小的事务进行优化。常常一个查询导致另一个查询。业务用户活动的重复本质以及处理大量数据的需要与运作数据库的设计、目的是冲突的。
很多企业试图用访问数据和提取数据的软件工具从运作系统获得决策支持的数据,有成功的也有不成功的。无论如何,即便使用这些工具,运作系统和决策支持设计固有的矛盾总是存在的。数据仓库按其定义消除了上述的问题。事实上,这些问题帮助我们确定数据仓库的技术特征。
4.数据仓库的技术特征
数据仓库的技术特征如下:
数据仓库的数据不是多变的。这意味着不同人员对同一信息的需求将获得相同的回答。这也意味着在您分析的过程中数据不会改变。 数据仓库的数据装载是适时和可用于预测的。
数据仓库反映企业机构组织的需要。数据仓库的构件是直接反映您们单位的主题。这些主题规定得可满足企业的需要而不管运作系统的要求。
数据仓库是整合的。所有业务系统的有价值信息都要整合到数据仓库的主题中去。多个业务数据源数据的差别应该在装载到数据仓库之前进行协调。
数据仓库提供企业的历史回顾。多年的数据常以汇总的方式加以存储。与此对照的,典型的业务应用只存储一个较短时段的数据。
数据仓库对查询功能是优化的。优化通常需要对数据预汇总,预索引和预取子集。将数据分隔和组合为许多可能的组合(分片和切块)的能力和有效地反复查询大量数据的能力是数据仓库的基本要求。
最后,数据仓库必须与分析工具项匹配。装载和维护数据仓库只是过程的一部分。一个数据仓库只有具备了辅助的决策支持工具时才是完善的,这一决策支持工具应反映和利用数据仓库的结构。
5.确认业务需要和数据仓库的目标
如同已经看到的,使用数据仓库技术有清楚的技术理由。但是,清晰地设定数据仓库要实现的业务需要和用以评价数据仓库成功的标准这两者同样是十分重要的。在大部分情形,数据仓库是为业务部门建立的。所以数据仓库的成功依赖于对业务部门需求的了解。由于这一点,由业务部门确定数据仓库的内容是必须的。
SAS快速建库方法论也提供问卷和过程,它帮助企业确定数据仓库内容和构架。它也帮助企业确定评价准则和清楚地界定数据仓库项目。清楚地明白企业的需要和目标也将帮助说明数据仓库项目与企业的关系以及数据仓库的作用和企业成功的关系。
6.关键成功因素
除了对企业的业务需求和数据仓库目的有一个清晰的了解外,还需要采取下列步骤确保数据仓库项目满足这些需要和目标:
选择公司可能的最高人员负责数据仓库项目。他对项目成功负有全职。组成包括业务决策者和IT专家的跨部门项目组。数据仓库成功的一个关键是业务专家和IT专家的密切合作,它将保证数据仓库项目的各个方面都被顾及到。
获取项目成功所需要的资源投资的承诺。
项目拥有权的一致意见。
项目评价标准的一致意见。
确保业务部门与IT部门一致地为项目成功进行努力。
选择可以提供数据仓库完整解决方案的可靠和有能力的伙伴。
若实施一个企业的数据仓库,应该在完成第一循环或项目的模块后,让单位的其他成员知道其成功。若这一循环正确地实现了,其成功应该让有关的每个人员清楚地看到,因为它是可见的且直接关系到企业的目标。回到列举企业任务和处理的清单并从新确定其优先程度。再选择扩展数据仓库的下一个项目。
B. SAS快速建立数据仓库方法论的细节
数据仓库建立的过程一直还是比较新的,还缺少实践经验,并不为IT业界广泛了解。此外,数据仓库常是这样的一个项目,它与单位的许多部门交叉,要求额外的计划,交流和管理。在这些情况下,最好汲取其它方面的经验并遵循一个合理、经验证的方法论。
至此,SAS研究所开发的SAS快速建库方法论帮助企业开发一个高质量数据仓库,它可以在预算的范围内按时地满足甚至超过用户的需要和期望。它提供一个检验数据仓库开发和实施是否成功的测试框架。它是基于SAS研究所的咨询专家、合作伙伴和用户的最佳实践和经验教训,这些专家成功地实施了数据仓库。这一方法论提供了经验证的建库框架,包括过程、问卷、工作表单和模板。若企业自己开发这些,将是耗时和难于管理的。运用SAS的快速建库方法论,在实施数据仓库的往复循环的各阶段会快速地递交结果,使得在一个很短的时间段内达到一个可量化的结果。方法轮是运用快速应用开发和SAS系统原型技术的一个分段式的处理。这是一个整合的,业务驱动的处理:各用户部门在实施的各阶段都有重要的输入,为报告和分析目的而逐步但快速增长地使用数据仓库,对此IT部门应当有准备。
SAS系统提供的工具(例智能化的客户机/服务器,多厂商构架等)可以帮助企业实现一个灵活和低风险的处理。相对于数据仓库对企业的潜在回报,过程的每一步的投入(过程资源、开发人员和工作人员等)是非常低的。
使得SAS快速建库方法论成功的三个主要因素是:
业务或用户的关注;
细致的收集用户需求和项目界定的研讨会;
使用快速应用开发(RAD)处理。
这些特点在下一节讨论。
1.业务驱动
SAS 快速建库的方法论是一个高度地以业务为驱动的过程:
了解数据仓库的需要和将从数据仓库中获益的业务管理者必须参加。
业务用户都是项目组的成员。使用有用的技术收集、建立文档和改善关于项目参加者需求的信息。
度量项目业务得益的信息应在项目的早期阶段就加以收集。
重点是放在评估由数据仓库得到的业务效益和投资回报。
2.收集需求的研讨会
研讨会确立象目标、范围和优先这样一些项目的高水平要素。这些是重要的,因为数据仓库项目要影响许多不同的业务领域,这些领域会有不同的优先程度。研讨会也可以缩短完成项目所需要的时间,因为它使人们聚集在一起,可减少个别交谈收集信息的反复次数。
3.快速应用开发 (RAD)
一个 RAD循环是对SAS 快速建库方法论本质的一个写照,因为需要尽快第看到他们努力的结果。快速应用开发基于反复发展的循环。即将一个大项目分为小项目,或"构件",在此每个构件服务于单个操作单元或功能区域的信息需要。每个构件是一个功能的可管理的单元,是易于理解和可以快速向企业显示价值的。
运用 RAD 可以使项目开发组为企业用户设定项目的优先,为每个构件设定主题以及为每个子项目清楚地划定范围。当每个局部任务完成后,会提出和明确进一步的需求。
循环式的处理有如下的好处:
有利于应用维护。
改进适应需求改变的能力。
减小无法管理项目的风险。
及早提供用户的反馈。
及早提交用户的可度量的好处。
提交高质量的解决方案。
及早提供结果。
C.方法论的框架
SAS快速建库的方法论典型地分为概括如下的6步。这些步骤提供工作的逻辑分段和检验项目是否建立在一个坚实的基础上。评估、需求调查和总结阶段着眼于确认、理解和回顾项目目标和单位的目标。设计、构建和部署阶段基于使用RAD 手段设计、开发和配置数据仓库环境。以下的流程图提供了方法论各个阶段的一个总貌和流程。
SAS 快速建库方法论的各个阶段在以下各节描述。
1.评估阶段
在评估阶段,对影响要求解决方案的用户的现有情况和条件进行了解。了解的目的是分析用户的问题和解决它的办法。最初的评估要确认和澄清目标,确认为澄清目标所做的研究的任何需要,这一评估将导致建议开始、延迟或取消这个项目。确定初始阶段项目组的成员和项目范围、作用和主要的提交结果。
2.需求调查阶段
在需求调查阶段,项目组收集业务和IT方面的高水平要求。对部门目标和信息需求的信息进行收集。本阶段的结果为提交一个报告,这个报告识别业务的目的、意义、信息要求和用户界面。这些需求也将用于数据仓库设计和项目的其它阶段。而且,这个阶段完成企业级的主题数据模型和数据仓库主题的选取。与收集业务需求的同时,IT需求的调研也同步地进行。并对主题驱动数据仓库的IT要求进行分析。
3.设计阶段
在选取主题方面,项目组集中于收集详细的信息要求和设计数据仓库构架,包括数据,过程和应用模型。在这一阶段,使用各种信息收集和验证的手段,包括数据建模、过程建模、座谈和原型展示。项目组评价技术构架,业务需求和信息需求。现有IT构架和要求的IT构架之间的差别是突出的,建议采用合适的数据仓库设计和构架。
4.构建阶段
在构建阶段,包括构建物理的数据仓库并组装,应用和处理的编码以及验收测试。在这一阶段数据仓库的管理者和终端用户的指导者应熟悉应用。当测试成功完成后,数据仓库就交付用户使用和维护。
5.部署阶段
在部署阶段,数据仓库展示给其他业务用户并开始进行使用应用的训练。在部署后,数据仓库管理者维护数据仓库。对提出的意见进行必要的修改。
6.总结阶段
在总结阶段,对项目的成功及其对企业的作用进行评价。总结分三步进行。第一步总结早期项目实施成功和失败的经验和公布以后努力的结果。第二步是应用配置是否如期望的实现了,如有必要须调整计划。第三步评估项目对单位的影响和得益。
凡是有该标志的文章,都是该blog博主Caoer(草儿)原创,凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。