商业智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。
通俗点讲,商务智能就好比“数据炼油厂”,即把商业活动中累积的数据加工成可用于支持商业决策的信息
BI的范围很广,在实际商务中我们往往只需运用其中的某个部分就可以暂时满足企业的需求,如数据仓库,联机事务分析(OLAP),数据挖掘,决策支持系统(DDS)等。其实,整个BI的框架结构可以用下面的图中间的三部分(数据预处理、数据仓库、数据分析)来表示:
就我理解,商业智能的最终目的就是提供给决策者一份站在战略层角度统观全局,及时的,在短时间内可以读完,为企业决策服务的统计报表。BI专家把这个任务分解为三个子任务:
1)
为了整合各种格式的数据,清除原有数据中的错误记录,专家们提出了数据预处理的要求
——ETL(
数据抽取、转换、装载
)
;
很多企业同时采用了多个在线事务处理系统,而这些系统之间的数据定义格式不尽相同,我们必须先定义一个统一的数据格式,然后把各个来源的数据按新的统一的格式进行转换,然后集中装载入数据仓库中。但并不是各个来源的不同格式的所有数据都能被新的统一格式包容,我们也不应强求非要把所有数据源的数据全部集中起来。有可能原来录入的数据中,少量的记录使用了错误的数据,这类数据如果无法校正,应该被舍去。某些数据记录是非结构化的,很难将其转化成新定义的统一格式,而且从中抽取信息必须读取整个文件,效率极低,如大容量的二进制数据文件,多媒体文件等,这类数据如果对企业决策不大,可以舍去
2)
对预处理过数据,应该统一集中起来,由此产生了元数据
(Meta data)
、数据仓库
(Data Warehouse)
;
数据仓库是
BI
的基础,有如下四个特性:
①面向主题的:不同类型的公司,其主题集合是不相同的。
②集成的:数据仓库的数据来源很广,数据仓库最重要的目的就是为了集成这些不同数据源的数据。
③非易失的:和传统的操作型数据库系统相比,数据仓库通常是以批量方式载入和访问。而且,对于数据仓库中的记录,并不进行一般意义上的数据更新,删除。所有的历史数据都会被保留,通常我们只是不停的批量导入新的数据。
④随时间变化的:操作型数据库系统出于性能上的考虑,并不保存系统投入运行后所产生的所有数据,一般只保留最新的
60~90
天内所产生的数据记录。。
3)
最后,对于集中起来的庞大的数据集,还应进行相应的专业统计和开发应用,从中发掘出对企业决策有价值的新的机会,这就是
OLAP(
联机事务分析
)
和数据挖掘
(Data Mining)
。
数据挖掘(
Data Mining
,
DM
)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。
CRISP-DM
(
Cross-Industry Standard Process for Data Mining
)就是公认的、很有影响的数据挖掘方法论之一。
CRISP-DM
强调,
DM
不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。
CRISP-DM
将整个挖掘过程分为以下六个阶段:商业理解(
Business Understanding
),数据理解
(Data Understanding)
,数据准备
(Data Preparation)
,建模
(Modeling)
,评估
(Evaluation)
和发布
(Deployment)
。其框架图如下:
从技术层来看,数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时间序列分析等。
凡是有该标志的文章,都是该blog博主Caoer(草儿)原创,凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。