qileilove

blog已经转移至github,大家请访问 http://qaseven.github.io/

商业智能(BI,Business Intelligence)。

商业智能(BI,Business Intelligence)。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。商务智能系统中的数据来自企业其他业务系统。例如商贸型企业,其商务智能系统数据包括业务系统的订单、库存、交易账目、客户和供应商信息等,以及企业所处行业和竞争对手的数据、其他外部环境数据。而这些数据可能来自企业的CRMSCM等业务系统。
  商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库联机分析处理OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。
  把商业智能看成一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
  目前,商业智能产品及解决方案大致可分为数据仓库产品、数据抽取产品、OLAP产品、展示产品、和集成以上几种产品的针对某个应用的整体解决方案等。

应具有的功能

  目前,很多厂商活跃在商业智能(下面简称BI)领域。事实上,能够满足用户需要的BI产品和方案必须建立在稳定、整合的平台之上,该平台需要提供用户管理、安全性控制、连接数据源以及访问、分析和共享信息的功能。BI平台的标准化也非常重要,因为这关系到与企业多种应用系统的兼容问题,解决不了兼容问题,BI系统就不能发挥出应有效果。这里我们通过对一个实验室的BI系统模型(我们将其称为D系统)进行功能解剖,来介绍BI系统。
  D系统是一个面向终端使用者,直接访问业务数据,能够使管理者从各个角度出发分析利用商业数据,及时地掌握组织的运营现状,作出科学的经营决策的系统。D系统可实现从简单的标准报表浏览到高级的数据分析,满足组织内部人员的需求。D系统涵盖了常规意义上商业智能(BI)系统的功能,主要构架包括以下几个方面。
  读取数据
  D系统可读取多种格式(如Excel、Access、以Tab分割的txt和固定长的txt等)的文件,同时可读取关系型数据库 (对应ODBC)中的数据。在读取文本和数据的基础上,D系统还可以完成:
  连接文本 把2个CSV文件中的共同项目作为键(Key),将所需的数据合并到一个文件,这样可以象操作数据库一样方便,但无须用户编程即可实现。
  设置项目类型 作为数据的项目类型,除按钮(button)(文字项目)、数值项目以外,还可以设置日期表示形式的日期数据项目、多媒体项目和不需要生成按钮但在列表显示中能够浏览的参照项目。
  期间设置 日期项目数据可以根据年度或季度等组合后生成新??下午或时间带等组合后生成新的时间项目。
  设置等级 对于数值项目,可以任意设置等级,生成与之相对应的按钮。例如,可以生成与年龄项目中的20岁年龄段、30岁年龄段的等级相对应的按钮。
  分析功能
  关联/限定 关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是,事件发生的概率和条件概率应该符合一定的统计意义。D系统把这种关联的分析设计成按钮的形式,通过选择有/无关联,同时/相反的关联。对于结构化的数据,以客户的购买习惯数据为例,利用D系统的关联分析,可以发现客户的关联购买需要。例如,一个开设储蓄账户的客户很可能同时进行债券交易和股票交易。利用这种知识可以采取积极的营销策略,扩展客户购买的产品范围,吸引更多的客户。
  显示数值比例/指示显示顺序 D系统可使数值项目的数据之间的比例关系通过按钮的大小来呈现,并显示其构成比,还可以改变数值项目数据的排列顺序等。选择按钮后,动态显示不断发生变化。这样能够获得直观的数据比较效果,并能够凸显差异,便于深入分析现象背后的本质。
  监视功能 预先设置条件,使符合条件的按钮显示报警(红)、注意(黄)信号,使问题所在一目了然。比如说:上季度营业额少于100万元的店警告(黄色标出),少于50万元的报警(红色标出)。执行后,D系统就把以店名命名的按钮用相应的颜色表示出来。
  按钮增值功能 可将多个按钮组合,形成新的按钮。比如:把【4月】、【5月】、【6月】三个按钮组合后得到新的按钮【第2季度】。
  记录选择功能 从大量数据中选择按钮,取出必要的数据。挑出来的数据可重新构成同样的操作环境。这样用户可以把精力集中在所关心的数据上。
  多媒体情报表示功能 由数码相机拍摄的照片或影像文件、通过扫描仪输入的图形等多媒体文件、文字处理或者电子表格软件做成的报告书、HTML等标准形式保存的文件等,可以通过按钮进行查找。
  分割按钮功能 在分割特定按钮类的情况下,只需切换被分割的个别按钮,便可连接不断实行已登录过的定型处理。
  程序调用功能 把通过按钮查找抽取出的数据,传给其他的软件或用户原有的程序,并执行这些程序。
  查找按钮名称功能 通过按钮名查找按钮,可以指定精确和模糊两种查找方法。另外,其他的按钮类也可以对查找结果相关的数据进行限定。
  丰富的画面
  列表画面 可以用and/or改变查找条件,可以进行统计/排序。统计对象只针对数值项目,统计方法分三种:合计、件数、平均,而且可以按照12种方式改变数值的显示格式。
  视图画面 提供切换视角和变换视图功能,通过变换与设置条件相应的数值(单元格)的颜色表示强调。依次变换视角可进行多方面的数据分析。视图的统计对象只针对数值项目,统计方法有合计、平均、构成比(纵向、横向)、累计(纵向、横向)、加权平均、最大、最小、最新和绝对值等12种。
  数值项目切换 通过按钮类的阶层化(行和列最多可分别设置8层),由整体到局部,一边分层向下挖掘,一边分析数据,可以更加明确探讨问题所在。
  图表画面 D系统使用自己开发的图形库,提供柱形图、折线图、饼图、面积图、柱形+折线五大类35种。在图表画面上,也可以像在阶层视图一样,自由地对层次进行挖掘和返回等操作。
  数据输出功能
  打印统计列表和图表画面等,可将统计分析好的数据输出给其他的应用程序使用,或者以HTML格式保存。
  定型处理
  所需要的输出被显示出来时,进行定型登录,可以自动生成定型处理按钮。以后,只需按此按钮,即使很复杂的操作,也都可以将所要的列表、视图和图表显示出来。
  D系统应用范围
  商业智能系统可辅助建立信息中心,如产生各种工作报表和分析报表。用作以下分析:
  销售分析 主要分析各项销售指标,例如毛利、毛利率、交叉比、销进比、盈利能力、周转率、同比、环比等等;而分析维又可从管理架构、类别品牌、日期、时段等角度观察,这些分析维又采用多级钻取,从而获得相当透彻的分析思路;同时根据海量数据产生预测信息、报警信息等分析数据;还可根据各种销售指标产生新的透视表。
  商品分析 商品分析的主要数据来自销售数据和商品基础数据,从而产生以分析结构为主线的分析思路。主要分析数据有商品的类别结构、品牌结构、价格结构、毛利结构、结算方式结构、产地结构等,从而产生商品广度、商品深度、商品淘汰率、商品引进率、商品置换率、重点商品、畅销商品、滞销商品、季节商品等多种指标。通过D系统对这些指标的分析来指导企业商品结构的调整,加强所营商品的竞争能力和合理配置。
  人员分析 通过D系统对公司的人员指标进行分析,特别是对销售人员指标(销售指标为主,毛利指标??换、购销商品数、代销商品数、资金占用、资金周转等)的分析,以达到考核员工业绩,提高员工积极性,并为人力资源的合理利用提供科学依据。主要分析的主题有,员工的人员构成、销售人员的人均销售额、对于销售的个人销售业绩、各管理架构的人均销售额、毛利贡献、采购人员分管商品的进货多少、购销代销的比例、引进的商品销量如何等等。

定义为下列软件工具的集合

  终端用户查询和报告工具。专门用来支持初级用户的原始数据访问,不包括适应于专业人士的成品报告生成工具。
  OLAP工具。提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。OLAP也被称为多维分析。
  数据挖掘(Data Mining)软件。使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。
  数据仓库(Data Warehouse)和数据集市(Data Mart)产品。包括数据转换、管理和存取等方面的预配置软件,通常还包括一些业务模型,如财务分析模型。
  联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。
  当今的数据处理大致可以分成两大类:联机事务处理OLTP(On-Line Transaction Processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
  OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
  “维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。
  OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。
  钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
  切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。 旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。
  ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。
  MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。
  HOLAP表示基于混合数据组织的OLAP实现(?型的。这种方式具有更好的灵活性。
  还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。
  OLAP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
  主流的商业智能工具包括BO、COGNOS、BRIO。一些国内的软件工具平台如KCOM也集成了一些基本的商业智能工具。
  根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。

三个层次

  经过几年的积累,大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process,在线事务处理),指的就是系统运行了一段时间以后,必然帮助企事业单位收集大量的历史数据。但是,在数据库中分散、独立存在的大量数据对于业务人员来说,只是一些无法看懂的天书。业务人员所需要的是信息,是他们能够看懂、理解并从中受益的抽象信息。此时,如何把数据转化为信息,使得业务人员(包括管理者)能够充分掌握、利用这些信息,并且辅助决策,就是商业智能主要解决的问题。 如何把数据库中存在的数据转变为业务人员需要的信息?大部分的答案是报表系统。简单说,报表系统已经可以称作是BI了,它是BI的低端实现。
  现在国外的企业,大部分已经进入了中端BI,叫做数据分析。有一些企业已经开始进入高端BI,叫做数据挖掘。而我国的企业,目前大部分还停留在报表阶段。
  数据报表不可取代
  传统的报表系统技术上已经相当成熟,大家熟悉的Excel、水晶报表、Reporting Service等都已经被广泛使用。但是,随着数据的增多,需求的提高,传统报表系统面临的挑战也越来越多。
  1. 数据太多,信息太少
  密密麻麻的表格堆砌了大量数据,到底有多少业务人员仔细看每一个数据?到底这些数据代表了什么信息、什么趋势?级别越高的领导,越需要简明的信息。如果我是董事长,我可能只需要一句话:目前我们的情况是好、中还是差?
  2. 难以交互分析、了解各种组合
  定制好的报表过于死板。例如,我们可以在一张表中列出不同地区、不同产品的销量,另一张表中列出不同地区、不同年龄段顾客的销量。但是,这两张表无法回答诸如“华北地区中青年顾客购买数码相机类型产品的情况”等问题。业务问题经常需要多个角度的交互分析。
  3. 难以挖掘出潜在的规则
  报表系统列出的往往是表面上的数据信息,但是海量数据深处潜在含有哪些规则呢?什么客户对我们价值最大,产品之间相互关联的程度如何?越是深层的规则,对于决策支持的价值越大,但是,也越难挖掘出来。
  4. 难以追溯历史,数据形成孤岛
  业务系统很多,数据存在于不同地方。太旧的数据(例如一年前的数据)往往被业务系统备份出去,导致宏观分析、长期历史分析难度很大。
  因此,随着时代的发展,传统报表系统已经不能满足日益增长的业务需求了,企业期待着新的技术。数据分析和数据挖掘的时代正在来临。值得注意的是,数据分析和数据挖掘系统的目的是带给我们更多的决策支持价值,并不是取代数据报表。报表系统依然有其不可取代的优势,并且将会长期与数据分析、挖掘系统一起并存下去。
  八维以上的数据分析
  如果说OLTP侧重于对数据库进行增加、修改、删除等日常事务操作,OLAP(Online Analytics Process,在线分析系统)则侧重于针对宏观问题,全面分析数据,获得有价值的信息。
  为了达到OLAP的目的,传统的关系型数据库已经不够了,需要一种新的技术叫做多维数据库。
  多维数据库的概念并不复杂。举一个例子,我们想描述2003年4月份可乐在北部地区销售额10万元时,牵扯到几个角度:时间、产品、地区。这些叫做维度。至于销售额,叫做度量值。当然,还有成本、利润等。
  除了时间、产品和地区,我们还可以有很多维度,例如客户的性别、职业、销售部门、促销方式等等。实际上,使用中的多维数据库可能是一个8维或者15维的立方体。
  虽然结构上15维的立方体很复杂,但是概念上非常简单。
  数据分析系统的总体架构分为四个部分:源系统、数据仓库、多维数据库、客户端
  ·源系统:包括现有的所有OLTP系统,搭建BI系统并不需要更改现有系统。
  
  

某案例中对销售额的解析及当前产品的分类

·数据仓库:数据大集中,通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小时一次,当然是自动的。数据仓库依然建立在关系型数据库上,往往符合叫做“星型结构”的模型。
  ·多维数据库:数据仓库的数据经过多维建模,形成了立方体结构。每一个立方体描述了一个业务主题,例如销售、库存或者财务。
  ·客户端:好的客户端软件可以把多维立方体中的信息丰富多彩地展现给用户。
  数据分析案例:
  
  

使用多维数据分析的案例

在实际的案例中,我们利用Oracle 9i搭建了数据仓库,Microsoft Analysis Service 2000搭建了多维数据库,ProClarity 6.0 作为客户端分析软件。
  分解树好像一个组织图。分解树在回答以下问题时很?最高的销售额?
  ·在特定的产品种类内,各种产品间的销售额分布如何?
  ·哪个销售人员完成了最高百分比的销售额?
  在图1中,可以对PC机在各个地域的销售额和所占百分比一目了然。任意一层分解树都可以根据不同维度随意展开。在该分解树中,在大区这一层是按国家展开,在国家这一层是按产品分类展开。
  投影图(图3)使用散点图的格式,显示两个或三个度量值之间的关系。数据点的集中预示两个变量之间存在强的相关关系,而稀疏分布的数据点可能显示不明显的关系。
  投影图很适合分析大量的数据。在显示因果关系方面有明显效果,比如例外的数据点就可以考虑进一步研究,因为它们落在“正常”的点群范围之外。
  
  

某案例的数据分析投影图

数据挖掘看穿你的需求
  广义上说,任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来,数据挖掘就是BI。但从技术术语上说,数据挖掘(Data Mining)特指的是:源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上,我们可以定义:数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘往往针对特定的数据、特定的问题,选择一种或者多种挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测、支持决策。

发展趋势

  与DSSEIS系统相比,商业智能具有更美好的发展前景。近些年来,商业智能市场持续增长。IDC预测,到2005年,BI市场将达到118亿$,平均年增长率为27%(Information Access Tools Market Forecast and Analysis: 2001-2005, IDC#24779, June 2001)。随着企业CRM、ERP、SCM等应用系统的引入,企业不停留在事务处理过程而注重有效利用企业的数据为准确和更快的决策提供支持的需求越来越强烈,由此带动的对商业智能的需求将是巨大的。
  商业智能的发展趋势可以归纳为以下几点:
  功能上具有可配置性、灵活性、可变化性
  BI系统的范围从为部门的特定用户服务扩展到为整个企业所有用户服务。同时,由于企业用户在职权、需求上的差异,BI系统提供广泛的、具有针对性的功能。从简单的数据获取,到利用WEB和局域网、广域网进行丰富的交互、决策信息和知识的分析和使用。
  解决方案更开放、可扩展、可按用户定制,在保证核心技术的同时,提供客户化的界面
  针对不同企业的独特的需求,BI系统在提供核心技术的同时,使系统又具个性化,即在原有方案基础上加入自己的代码和解决方案,增强客户化的接口和扩展特性;可为企业提供基于商业智能平台的定制/P>
  从单独的商业智能向嵌入式商业智能发展
  这是目前商业智能应用的一大趋势,即在企业现有的应用系统中,如财务、人力、销售等系统中嵌入商业智能组件,使普遍意义上的事务处理系统具有商业智能的特性。考虑BI系统的某个组件而不是整个BI系统并非一件简单的事,比如将OLAP技术应用到某一个应用系统,一个相对完整的商业智能开发过程,如企业问题分析、方案设计、原型系统开发、系统应用等过程是不可缺少的。
  从传统功能向增强型功能转变
  增强型的商业智能功能是相对于早期的用SQL工具实现查询的商业智能功能。目前应用中的BI系统除实现传统的BI系统功能之外,大多数已实现了图2中数据分析层的功能。而数据挖掘、企业建模是BI系统应该加强的应用,以更好地提高系统性能。

posted on 2011-10-31 13:51 顺其自然EVO 阅读(370) 评论(0)  编辑  收藏 所属分类: 数据库

<2011年10月>
2526272829301
2345678
9101112131415
16171819202122
23242526272829
303112345

导航

统计

常用链接

留言簿(55)

随笔分类

随笔档案

文章分类

文章档案

搜索

最新评论

阅读排行榜

评论排行榜