我的一亩三分地

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  7 随笔 :: 0 文章 :: 17 评论 :: 0 Trackbacks
     先来说说ODS和数据仓库的定义。ODS(Operate Data Store)是一个面向主题的、近实时的、可变的、当前的细节数据集合。数据仓库(DW)是面向主题的、集成的、稳定的、随时间变化的。从定义可以看出数据仓库和ODS的异同。ODS和DW数据模型都是面向主题的,或者说两者的数据模型是趋于一致,DW有轻度性汇总数据,当然也有提出DW是不存储细节性数据的,这个不能一概而论,具体情况具体分析,在初期阶段倾向于数据结构的一致。DW的数据是稳定的,历史的(随时间变化的),ODS的数据是近实时的,变化的(肯定的呀,越是实时的数据变化的可能性越大)。以前ODS陪太子读书的地位正在发生变化,越来越倾向于建立ODS,而不是作为数据仓库的可选部件。
  从下面可以看出ODS的重要性,由于ODS从功能上提供了数据缓冲区和企业数据统一视图。
  1、数据缓冲区:缓冲区是为了降低从业务系统ETL数据的复杂度,比如当ODS某张表需要从多个业务系统抽取数据,可能需要现将数据抽取出来放在缓冲区里,在进行清洗、转换等操作。缓冲区是个概念区域,由于ETL过程的复杂性可能一步到位不需要缓冲区也可能需要多个缓冲区。所以缓冲区是必须的。
  2、企业统一视图区:在ODS里的数据除了为数据中心服务外,也为企业业务系统提供了数据共享接口(或者说为业务系统提供了共享的数据交换接口)。没有数据中心的情况下如果获取其他系统数据,我们需要专门做接口。有了数据中心就可以从数据中心的统一视图区中获取数据,相当对数据仓库做了隔离。当然隔离或者缓冲不仅是从业务系统ETL的过程,还包括多级数据仓库交换的视图和隔离,为BI展现提供的数据库的共享和隔离。
  3、其他功能:由于ODS提供的数据是近实时的,数据仓库的数据是历史的,ODS为数据分析提供了近实时的分析接口。数据仓库的数据是相对滞后的可能是一个月以前的或者一年以前的。
  从ODS建设看,主要是两个部分的建设
  1、统一编码标准:各业务系统数据字典的编码都各不相同,例如对于电压等级,A系统是01,02,B系统是220,110,C系统是220kV,110kV等。显然统一的编码才是各个业务系统能够共享数据的前提,也是数据仓库能够集成数据的前提,对于统一编码的管理,是数据仓库的核心,最好能有一个编码系统,将编码系统作为业务系统进行抽取是一个可行的方式。
  2、统一企业模型:这几乎是数据仓库或者ODS最为复杂的一块,也是评价实施厂商成熟的关键指标。只有对行业业务有很深的积累才能提供成熟的、稳定的模型,ods模型的稳定也就是数据仓库的稳定。显然数据模型的建设不是一步到位的,是不断积累的过程,成熟的数据模型能够减少迭代的时间。
 
     
posted on 2007-07-29 14:01 西北狼 阅读(2187) 评论(2)  编辑  收藏 所属分类: 开发技术

评论

# re: 乱弹数据仓库(二)-ODS 2007-08-24 23:27 紫猫
支持,坚持继续啊~  回复  更多评论
  

# re: 乱弹数据仓库(二)-ODS 2007-12-24 16:20 xiangeliuATgmail.com
关于统一企业模型,楼主有没有相关的信息可以介绍下啊。  回复  更多评论
  


只有注册用户登录后才能发表评论。


网站导航: