不少朋友抱怨我的博客晦涩难懂,实际元数据、主数据、数据质量、数据分析已经非常小众了,小众的以至于在ITPUB发博都找不到分类,实际这也是我看好它的原因。随着未来智慧地球、物联网的建设,信息化进程大大加快,需要虚拟化(云计算)、IT资源监管(数据资产、软硬件资产)、移动应用。我们的小众是属于数据资产监管中的一部分。
上周挖了不少坑,本周先填一个坑,填元数据模型的坑。元数据模型简称元模型。元数据有哪几类元数据模型就有几类,粗分下分为数据移动(ETL)元数据、数据分析(BI)元数据、数据存储元数据,数据质量元数据、数据管控元数据等。下面逐一介绍下这几类元数据:
数据存储元数据模型:要分结构化和非结构化两种介绍,先说大家常见的结构化数据的元数据模型。我们知道描述数据库信息需要Catalog、Schema、Table、View、Trigger和storage process,当然一般把Trigger和SP理解为数据移动,这些元数据都有哪些属性你可以看看power designer。对于非结构化数据解决方案不多,因为对于非结构化数据与查询息息相关,一般针对索引条件建立元数据模型。
数据移动元数据模型:这一直是我思考的问题,参照主流ETL工具我们可以定义Workflow、Task、mapping、source、target等,记得source与target与数据存储元数据模型可以互联。Mapping要记录source至target间的转换过程。
数据应用元数据模型:主要考虑带OLAP引擎的CUBE模型,主要有:Cube、Dimension、member Of、Hierarchy、Fact等。
讲到这里,基本解决了的元数据管理中元数据存储和展示的问题。但这并是问题的本质,实质是元数据模型与CWM之间的关系,但为了避免文章晦涩难懂,我跳过这些。