第一章 绪论
1.1 论文的选题背景
以往的基于数理统计方法的应用大多都是通过专用程序来实现的,我们知道,大多数的统计分析技术是基于严格的数学理论和高超的应用技巧的,这使得一般的用户很难从容地掌握它。数据挖掘技术是数理统计分析应用的延伸和发展,假如人们利用数据库的方式从被动地查询变成了主动发现知识的话,那么概率论和数理统计可以为我们从数据归纳知识这样的数据挖掘技术提供理论基础[1] 。
目前国内各基层和中层的统计部门却面临一个相同的问题:在信息化技术的推动下,如何将传统的统计方法与计算机技术相结合,在一个集成的应用环境中高效快捷的完成统计工作,同时对已有的数据进行更深入地分析并做出推断和决策。依靠过去人工的经验预测方法已经不能满足实际工作的要求,政府工作中对统计部门的数据分析和推断的要求却在不断加强,新的理论和方法以及相应的实现技术成为迫切的需要。
国家在编制国民经济计划、进行企业管理以及从事科学研究的时候,都离不开利用某些数字资料,比如研究对外贸易的情况时,需要知道全国进出口贸易总额,主要的商品进出口数量等。统计资料就是通过数字反映一定空间、时间条件下,客观现象的具体数量特征的。这些资料通过基层逐级的向上汇总,其间就是一个搜集和整理的过程,基层数据的准确性和有效性直接影响到最终国家统计数据的可信性。政府部门还要根据这些资料做出必要的统计推断,也就是更为复杂的统计分析。
通过深入调查研究,目前上海市区级政府统计部门的统计工作者对于统计信息管理系统普遍存在以下的要求:
a) 灵活的自定义查询方式。
b) 数据多级汇总,允许指标派生。
c) 允许使用人员从时间、空间和各种分类的角度查看各种粒度的汇总数据。
d) 等距和不等距的数据抽样,抽样间距可以指定。
e) 发现统计数据间的关联关系,比如近年来房地产投资受哪些经济指标影响,并对其变化趋势做出初步的预测。
显然,如果说前几条是查询、汇总级别的,那么最后一条就是分析、挖掘级别的。这些要求都具有很强的实践背景,是根据多年统计工作的经验得出的,实际上也是目前各地基层和中层政府统计部门借助计算机亟待解决的问题。应对这样的需求,传统的OLTP(联机事务处理)技术已不能满足,因为它无法高效地实现利用多维等高级数据模型进行数据的聚合,并且缺乏较强的分析和预测功能,面对具有多维数据特征的统计数据库更是如此。因此,带有挖掘功能的联机分析技术OLAM(联机分析挖掘),成为我们关注的焦点。毕竟联机分析挖掘技术很大程度上来源于传统的统计方法,当然可以反过来应用到统计活动中并推动其发展。
1.2 OLAM的概念
1997年韩家伟教授提出了OLAM的概念,他把OLAM定义为OLAP Mining,指将OLAP和数据挖掘技术结合起来,在多维数据模型——数据立方体的基础上对外提供数据分析和知识发现应用。这实际上是在OLAP系统的基础上对数据分析算法进行扩充,把数据挖掘算法引入多维数据模型的数据环境中来[2][3]。
1.3 国内外应用状况
OLAM的理论在国外已经日趋成熟,韩教授的学生进一步研究了联机分析挖掘对数据立方体的操作,将数据挖掘功能与OLAP的钻取结合,使得数据挖掘可以在数据立方体这样的多维和多层次的抽象空间中进行,利于灵活地挖掘知识[a]。此外,他们还深入研究了从海量数据库中挖掘多层关联规则的方法[b]。韩教授及其合作伙伴将OLAM的理论和技术付诸于实际,开发了OLAM实用工具DBMiner [9]。
在国际数据挖掘产品领域中,DBMiner起步较早,产品也较为成熟,目前应用该产品的厂商包括Microsoft,HP,IBM,Boeing等国外知名大公司,已取得了较好的应用成效。
DBMiner整体架构由三个模块组成:图形用户界面、DBMiner引擎和通信模块。图形用户界面主要完成与用户的交互;DBMiner引擎是该系统的核心,所有知识发现的处理均由该模块完成;通信模块主要完成DBMiner与数据库服务器之间的数据传输。DBMiner实用DMQL(Data Mining Query Language)描述KDD的任务,利用AOI(Attribute-Oriented Induction)的方法进行知识的获取。以下(图1-1)就是DBMiner的结构图。
图1-1 DBMiner系统框图
DBMiner系统包括三个工具包:DBMiner AX2002、DBMiner DX2002、DBMiner SX2002。其中DBMiner AX2002软件包用于关联规则挖掘,它从大量数据中挖掘出有价值的能够描述数据项之间相互联系的知识,其主要应用领域是挖掘客户的消费倾向和消费规律。DBMiner DX2002软件包用于挖掘关系数据库和多维数据库中数据的显著变化,其主要应用领域是挖掘企业利润或某些重要数据指标随其它指标变化的规律。DBMiner SX2002则是一个用于对时序数据和序列数据进行挖掘的工具包,它主要用于挖掘企业经营数据的趋势特征。
DBMiner的特色在于:
Ø 通过ODBC连接多种数据源(Oracle、Sybase、SQL Server、Xbase、Text等),把数据仓库、多维数据库和数据挖掘技术集成在一个紧凑的系统中。
Ø 数据挖掘的功能非常完整,实现了切片(dicing),切块(slicing),旋转(Pivoting)和下钻(drilling down)以及高效的数据挖掘语言。
Ø 提供了直观的图形用户界面,可视化的数据浏览工具及联机事务分析(OLAP)和联机分析挖掘(OLAM)能力。
Ø 处理千兆级的大型数据库。
尽管OLAM的理论和DBMiner这套工具已经较为成熟了,但是国外针对OLAM应用于统计工作的相关报道非常少,即使OLAM的创始人韩教授本人也未详细谈及OLAM在统计工作中的实际应用。另外,DBMiner是面向商业用户,而不是面向政府统计业务的系统,因此将其应用到政府统计工作中无法充分发挥它的优势。
此外,现在能够提供方便多维分析支持的多维统计数据库以加拿大统计局的CANSIMII[c]最为典型,该数据库采用多立方体数据结构,整个数据库中最基本的一个维是具体的调查表,将各表连接成一体,形成雪花结构。然而,如何对其进行数据挖掘及相关分析,以及是否采用OLAM技术还无法得到详细官方资料的进一步介绍。
目前,国内对联机分析挖掘的研究还处于起步阶段,OLAM的概念已经被广大的数据仓库和数据挖掘研究工作者接受。一些学者提出了基于数据立方体的联机分析挖掘模型[],该模型依赖数据仓库和其他各种类型文件生成的工作仓库系统,综合了联机分析处理多维分析的在线性、灵活性和数据挖掘处理的智能化特点,提高了传统模型的灵活性和智能化程度。还有一些学者设计并实现了一种联机分析挖掘应用模型[],该模型建立了一种B/S架构的双服务器数据仓库,将数据挖掘与OLAP思想相结合,提供多维度事务内、事务间关联规则的挖掘,并在此基础上提出了传统OLAP系统到OLAM系统平滑过渡的解决方案。此外,还有一些针对基于OLAM的可视化数据挖掘系统原形的研究。这些研究都是对有关OLAM实现模型的探索,还没有得到更加深入和广泛的应用,相应的实用工具很少。[4][5][6][7][8]
国内政府统计部门结合计算机技术进行统计处理过程中大多仅局限于采用OLAP的思想和方法,比如天津市统计局就采用NCR的Teradata建成了企业微观数据仓库和人口信息数据仓库系统[d],并利用Brio Enterprise商业智能工具实现网上随即查询、网上多维分析、网上数据钻取、网上旋转透视等功能。但是建设专门的数据仓库需要充分的数据、较长的周期,投入较大且带有风险,因此各区县级的统计部门现在不可能采用这种方式。
虽然一些高级统计部门已经开始关注数据挖掘技术,但通常是采用专门的工具进行数据分析和挖掘,这些工具包括国外厂商推出的SAS,SPSS、Oracle的相应组件ODM以及国内公司自主研发的马克威统计分析系统。上海市统计局使用马克威分析系统[e]已近两年,其应用领域主要包括国民经济统计、综合统计、社会统计分析、企业调查等,该系统是集统计分析、数据挖掘和可视化展示为一体的大型软件系统。
然而通过调查,我们发现目前政府统计部门尤其是中层或基层部门并未普遍购买这些比较成熟的商业统计分析以及数据挖掘软件,充分利用这些软件产品的就更少。这说明对广大基层统计部门而言,数据挖掘的相关技术实际上还没有完全被认知和采纳,相应对OLAM的研究和应用更是凤毛麟角。究其原因主要在于以下几点:
l 这些软件都是独立的商业软件,无法与统计局内部的统计系统进行紧密集成,无法在一个平台上完成全部所需的操作。
l 其中许多功能在中层和基层部门中根本用不到,花钱买来的软件得不到充分的利用,造成资源的浪费。
l 最重要的是,这些软件的采购费用、培训费用和服务费用是各地区县级统计单位难以承受的。
因此将OLAM这样的数据挖掘方式与当前国内的政府统计业务相结合,并开发出统计业务中真正需要并且紧密集成、功能实用、价格便宜的信息管理和应用系统是一项战略意义深远的课题。
1.4 本文研究的目的与基本构想
本论文的意义在于将联机分析处理和数据挖掘的思想和技术综合应用于政府统计工作中,利用已有的OLAM理论和方法解决关系国计民生的实际问题,并期望能够在此背景下进一步深入研究OLAM在统计领域的应用前景。我们工作的重点并不在于提出新的OLAM算法和模型,而在于将OLAM的理论乃至数据挖掘这一课题中成熟的思想和方法合理的应用到实际的统计业务中,以提高政府统计工作的效率和质量。
考虑到统计业务最根本的工作就是要构建统计数据库,对统计数据库中各种指标进行统一管理、维护、查询、汇总和分析。因此在统计工作中,使用OLAM实现传统OLAP的数据聚合功能并获取各种粒度级别的汇总数据,然后充分利用其包括发现各种关联规则在内的分析预测的能力对汇总产生的多维数据集进行挖掘,发现各种模式和规则。事实上,这也正是统计部门的职责所在。
我们成功地应用OLAM的思想和方法开发了一套面向基层统计部门的统计信息管理应用系统,该系统已在上海市某区统计局投入使用,基本满足统计工作的实际需求,并通过了国家统计局的鉴定。结合该统计应用系统和该统计局的业务需求,本论文将着重在以下几个方面对联机分析挖掘的应用展开研究。
1. 根据统计业务的实际需要,设计联机分析挖掘技术在统计信息管理应用系统中的实现框架。
2. 针对统计数据库的多维特征,对统计信息管理系统后台数据库进行多维建模。
3. 利用OLAM的思想和方法设计一套通用的汇总算法对统计数据库的基层数据进行聚合以获得各种粒度的汇总级数据,并构建多维数据集支持上卷、下钻、切片、切块等数据立方体操作。
4. 由于统计数据具有很强的时序性,我们将主要关注于对时间序列的分析(Time Series Analysis)和挖掘,且被分析和挖掘的数据来源于聚合操作生成的多维数据集。
5. 利用数据挖掘的理论和方法发现统计数据间潜在的关联规则,这里我们初步采用Apriori这一成熟的关联规则算法。由于统计业务的特殊性,这部分工作的重点在于对挖掘数据的选取以及挖掘结果的解释。
由于开发进度的限制,再加上大多数的挖掘算法针对特定的环境,我们的系统现在还不可能提供所有的数据挖掘功能,目前初步实现的功能恰恰针对统计局的迫切需求,更加实用和完善的挖掘方法就在今后不断补充进来。
1.5 论文结构组织
本论文共分为七章,各章节的具体内容如下:
Ø 第一章绪论。介绍了政府统计工作的任务,引出OLAM的定义并概述了OLAM的理论及国内外最近的研究动态,进一步说明本论文的主要研究工作。
Ø 第二章经济社会统计与联机分析挖掘。本章首先从统计学专业的角度扼要的介绍了统计业务中的背景知识,着重分析了经济社会统计中统计指标、统计分组和统计划分的概念。接下来,我们又介绍了OLAP的基本定义、实现的原理等,其中许多概念都与统计分组的内容有所联系。然后又扼要的介绍了数据挖掘的相关理论,采用的各种分析和挖掘方法等。进而说明OLAP与数据挖掘技术相结合的产物——联结分析挖掘能够较好的满足经济社会统计工作。
Ø 第三章 OLAM在统计信息管理应用系统中的实现框架。本章简要的描述了论文中提及的统计信息管理应用系统的实施背景,业务需求包括数据构成,数据处理等,旨在表明正是由于应用系统中数据和功能的特点才决定了采用OLAM的思想和方法进行处理比较合适。接下来,我们具体说明该系统中对于联机分析挖掘技术实现的框架和有关特征。
Ø 第四章统计系统中的多维数据建模。本章引入统计数据库这一重要概念,分析其多维特征以及构建过程,进一步着重描述了实际统计信息管理应用系统后台统计数据库的组织和存储方式。正是因为采用了多维的数据建模方式,保证了在其基础上可以顺利地进行OLAM的相关操作。
Ø 第五章统计系统中OLAP聚合功能的算法实现。本章详细的阐释了我们借鉴联机分析处理机制设计和开发的一套通用聚合算法,该算法能够实现各种粒度级别数据汇总的计算过程,并且能够不依赖于任何数据库平台。最后,列举了一些典型的汇总执行案例进一步分析该通用数据聚合算法的优点和缺点。
Ø 第六章统计系统中数据挖掘技术的应用。本章着重描述了统计系统中对时间序列进行的趋势分析,相似性分析等时序挖掘的基本原理和初步实现过程;进而又尝试对时间序列构建一组探测性的事务数据集,在此基础上应用Apriori算法进行关联规则的挖掘。挖掘过程中还采用图形化方式直观的展现处理结果,大大提高了用户与系统之间的交互能力。
Ø 第七章总结与展望。本章对全文的工作进行了总结,说明本论文的贡献及创新点,以及今后的改进工作和未来的研究方向。
本文以实际的统计业务需求作为线索,先概述了经济社会统计学中的统计方法以及OLAP与数据挖掘的有关理论,探索相互之间内在的相似点。进而,围绕我们自己的研究工作具体说明OLAM技术在统计信息管理应用系统中实现的框架与核心的功能:应用这种理论和方法的前提是要构造合适的多维数据结构,在此基础上能够采用OLAP的数据聚合功能实现统计数据汇总,并对聚合结果进行相关的数据挖掘分析。图1-2就展示了整篇论文的组织思想。
图1-2 论文的内容与结构图
(注:因涉及数据的特殊性,本论文中以下所有使用的数据都是模拟数据,不对数据的真实性负责。)
第一章 经济社会统计与联机分析挖掘
由于本论文的研究面向的是统计领域,因此必须首先明确统计学的基本概念和使用的相关方法,然后再介绍OLAP与数据挖掘的理论和技术,进而分析统计工作中对联机分析挖掘的内在要求。
2.1 经济社会统计的基本概念
2.1.1 经济社会统计学
统计理论(或统计学)即系统研究如何搜集、整理、分析统计数据的理论和方法。统计理论一方面是统计实践活动的理论概括和总结,另一方面统计理论又是在其理论和实践同时发展的过程中,吸取其他学科的研究方法不断创新而形成的系统理论。统计理论不但是指导统计活动如何搜集、整理统计数据的原理、原则和方法,而且更重要的是指导人们如何运用统计方法分析统计数据内在的统计规律性的科学方法。正因为如此,统计学也被称为“数据的科学”[10]。
事实上,统计学本身针对不同的研究对象有着不同的分类,包括统计物理学,生物统计学,经济统计学,社会统计学等。统计局的统计工作主要针对的是经济社会统计,因此下面重点说明经济社会统计学的有关概念。
经济社会统计是研究社会现象数据的收集、整理和分析的一门方法论学科[1][11]。
也正因为如此,通过对收集来的社会现象数据的分析,可以帮助我们更加深入的发现各种社会现象间的关联关系和发展变化趋势。
2.1.2 统计指标的定义与特点
统计指标是说明总体数量特征的。关于统计指标的概念,有两种不同的理解和使用方法。
第一,在统计理论设计上所使用的“统计指标”的涵义,是指反映总体现象数据特征的概念。例如:工业增加值、商品销售额、职工总人数等等。按这种理解,统计指标包括三个构成要素,即:指标名称、计量单位和计算方法。
第二,在统计实际工作中经常使用的统计指标的涵义,是指反映总体现象数量特征的概念和具体数值。如:2003年我国国民生产总值为117251.9亿元,就是统计指标。按这种理解,统计指标除包括上述三个要素外,还包括时间限制、空间限制和指标数值。
由于我们开发的统计信息管理应用系统是针对实际统计工作的,因此本论文以下的部分一律按第二种解释定义统计指标。
统计指标有以下的特点:
1) 数量性
统计指标描述的是可以度量的客观现象的量,都是用数值表现的,不存在不能用数值表现的统计指标。
2) 综合性
统计指标说明的对象是总体而不是个体,它是许多个体现象的数量综合的结果。一个人的工资不叫统计指标。反映研究对象中所有人的工资总额和平均工资才叫统计指标。
3) 具体性
统计指标并非抽象的概念和数值,它具有客观的经济社会内容,是一定的具体经济社会现象的量的反映。
2.1.3 统计指标体系
1) 统计指标体系的概念
若干个相互有联系的统计指标所组成的整体叫统计指标体系。经济社会现象本身的联系是多种多样的,所以,统计指标之间的联系也是多种多样的。例如,一个工业企业是人力、物资、资金、生产、供应和销售等相互联系的整体。用一系列统计指标来反映和研究工业企业的全面情况,这就组成了工业企业统计指标体系。又如,商品的销售额等于商品价格与销售量的乘积,粮食总产量等于亩产量与播种面积的乘积等等,也叫做统计指标体系。
统计指标体系比统计指标更为重要。这是因为任何经济社会总体都是一个相互联系的有机整体。这种经济社会现象的相互联系是产生统计指标体系的客观基础,同时也提出了使用统计指标的要求。单个统计指标仅能反映经济社会总体及其运动的一个侧面,要想全面地反映和研究经济社会总体的情况,就只有使用相互联系的各种统计指标所组成的指标体系,才能避免片面性,使我们获得全面的情况。
2) 统计指标体系的种类
统计指标体系可以分为两大类,即基本统计指标体系和专题统计指标体系。
反映国民经济社会发展及其各个组成部分的基本情况的指标体系叫基本统计指标体系。他通常分为三层:最高层、中间层和基层。最高层是反映整个国民经济和社会发展的统计指标体系,如:经济统计指标体系、社会统计指标体系、科技统计指标体系等。中间层是指各地区和各部门的统计指标体系,如工业统计指标体系、地区综合评价指标体系等,它是最高层统计指标体系的纵向和横向的分支。基层统计指标体系是指各种企业和事业单位的统计指标体系。他是整个统计工作的基础。
为研究某一经济问题或社会问题而专门制定的具有针对性的指标体系,叫专题统计指标体系。如经济效益指标体系、能源问题研究的指标体系等。
2.1.4 统计数据整理的定义与步骤
统计数据整理也称为统计整理。统计整理是根据统计研究的目的,将统计调查所得的数据进行科学的加工,使之系统化、条理化,并成为能反映总体数量特征的综合资料的工作过程。
统计调查所得到的反映总体单位特征的数据资料是分散的、零碎的。根据这样的资料,人们难以从总体上分析和认识社会经济现象的数量表现。只有根据统计研究的目的,运用科学的统计整理方法,对数据进行加工整理,才能发现经济社会现象数据资料的规律性。
此外,对某些已经加工的综合资料,往往由于在分组方法、总体范围或者指标含义、口径、计算方法等方面的改变,而无法满足统计分析的要求,也必须对其再次进行整理。
统计整理的步骤如下:
1) 设计和编制统计数据资料的整理方案。统计整理方案主要是明确各种统计分组和各项汇总的统计指标。
2) 对搜集到的原始资料进行审核。在进行汇总之前,要审核统计调查数据是否完整、准确、完整,以便发现问题,及时纠正,以确保资料准确无误。
3) 根据研究目的的要求和统计分析的需求,对原始资料进行分组。
4) 进行汇总计算,编制次数分布数。
5) 编制统计表。
6) 进行统计数据资料的汇编,系统地积累历史统计数据。
2.1.5 统计分组的有关概念和分组方法
统计分组是根据经济社会现象的内在特点和统计研究的目的,将总体中所有总体单位按一定的标志划分为性质不同的若干个组成部分的一种统计方法。
构成统计总体的各个总体单位,一方面在某一指标或某些标志上具有彼此相同的性质,这是构成同质总体的基础;另一方面又在其它一些标志的具体表现上具有差异性,差异较小的单位归为一组,差异较大的单位尽量分开。这是进行统计分组的客观依据。统计分组的基本要求是:使各组内部保持同质性、各组之间呈现出质的差异性。因此,统计分组的实质是在现象总体内进行一种分类。统计分组的作用表现在以下几个方面:
(一) 划分经济社会现象的类型
将经济社会现象总体按照一定的分组标志区分为性质不同的组成部分,是统计分组的根本作用。从一定意义上说,一个统计总体之所以能区别于其它统计总体,是因为有着可以确定该总体性质和范围的标准和界限。即总体之间的区别,是一种定性分类。因此,将同质总体划分成性质不同的各个组成部分,也是一种统计的定性分类。
例如表2-1所示:
表2-1 2003年全国国有及规模以上非国有工业企业单位数及工业增加值
按注册登记类型分
|
企业单位数
|
工业增加值
|
绝对额(个)
|
比重(%)
|
绝对额(亿元)
|
比重(%)
|
全国总计
|
196222
|
100.00
|
41990.23
|
100.00
|
国有及国有控股企业
|
34280
|
17.47
|
18837.60
|
44.86
|
集体企业
|
22478
|
11.46
|
2551.67
|
6.08
|
股份有限公司
|
6313
|
3.22
|
6203.66
|
14.77
|
外商投资企业
|
17429
|
8.88
|
6919.15
|
16.48
|
港澳台商投则企业
|
21152
|
10.78
|
4680.49
|
11.15
|
此表中就是按注册登记类型把我国工业企业划分为五个组,这样有助于认识我国不同经济类型的工业企业之间的经济关系。
(二) 反映社会经济现象总体的内部结构
通过统计分组,能够观察总体中所有总体单位在各组的分布状态和分布特征,分析总体的内部结构。表2-1所示的比重就反映我国国有及规模以上非国有工业企业单位数、增加值及其构成。
(三) 研究现象之间在数量上的依存关系
通过分组,可以观察不同总体之间在数量上的相互依存关系。从表2-2可以看出,商品流通费用率与商品销售额之间的依存关系是,商品流通费用率随着商品销售额的增加而降低。
表2-2 2004年某市百货商店流通费用率
商店按商品销售额分组(万元)
|
商店数
|
商品流通费用率(%)
|
50以下
|
3
|
11.2
|
50-100
|
2
|
10.4
|
100-150
|
4
|
9.5
|
150-200
|
7
|
7.7
|
200-300
|
8
|
6.4
|
300-400
|
6
|
5.9
|
400-500
|
3
|
5.2
|
500以上
|
2
|
5.0
|
在该统计信息管理应用系统中,为了获得各种分组情况下的汇总统计数据,专门为各分组统计指标项建立物理数据库表以存储其分组信息。这些表在应用系统中称为“分组目录”,且根据分组指标数据项类型的不同,划分为“字符型结构分组”如表2-1中登记注册类型,和“数值型区间分组”如表2-2中商品销售额的各取值范围。
统计分组的关键在于正确选择分组标志和划分各组界限。分组标志是将统计总体划分为若干个性质不同的组成部分的标准或依据。在选择分组标志时要解决好以下两个方面问题:首先,选择什么标志进行分组,其实质是要决定从什么方面对现象总体进行统计研究;其次,选择多少个标志进行分组,这一问题不仅决定着分组的形式,还决定着我们对社会经济现象总体认识的广度和深度。
(一) 分组标志的选择
选择分组标志必须遵循以下原则:
1. 根据统计研究目的选择分组标志
对于同一研究对象来说,由于统计研究目的不同,需要采用的分组标志也就不同。例如,在工业生产统计中,当研究目的是为了分析不同规模的企业生产情况时,应当选择产品数量或生产能力作为分组标志,将企业总体划分成大、中、小三组;当研究目的在于确定工业内部比例及平衡关系时,就应该按部门类别作为分组标志。
2. 选择能反映现象本质特征的主要标志
所谓主要标志就是能反映现象本质特征的标志。例如,研究职工生活水平情况时,有工资水平,家庭成员平均收入等好几个标志。按职工家庭成员平均收入分组就能反映职工实际生活水平,所以家庭成员平均收入就是主要标志。
3. 结合具体社会历史条件和经济条件选择分组标志
在研究目的相同的情况下,由于研究对象所处的具体社会历史条件和客观经济条件不同,需要采用的分组标志也会有所不同。例如,反映工业企业生产规模的标志很多,如产品生产能力、职工人数、固定资产价值、增加值等。在科学技术不发达的条件下,把职工人数作为划分企业规模的标志是比较恰当的;而在科学技术发达、技术装备比较先进的条件下,继续按职工人数划分企业规模的大小,就无法比较准确地反映作为第一生产力的科学技术在生产中的重要作用。因而采用产品生产能力或固定资产价值作为分组标志更切合实际些。
(二) 分组的形式
分组的形式有简单分组和平行分组体系,复合分组和复合分组体系。
1. 简单分组与平行分组体系
对总体只按一个标志进行分组,叫简单分组。选择两个或两个以上的标志分别进行简单分组,就形成了平行分组体系。例如,对工业企业可以分别按经济类型和规模两个标志进行简单分组,得到如下平行分组体系:
按经济类型分组 按规模分组
国有及国有控股企业 大型企业
集体企业 中型企业
其他类型企业 小型企业
平行分组体系的特点是:每一种分组只能固定一个因素对差异的影响,同时又掩盖了其他因素对差异的影响。例如在按规模分组中,企业规模大小的差异被规定了,而其他差异依然存在,但却被掩盖了。在平行分组体系中,所采用分组标志的多少,决定了人们对经济社会现象总体认识的广度。
2. 复合分组与复合分组体系
对同一个总体选择两个或两个以上的标志层叠分组,叫复合分组,所分各组是在分组标志的基础上层叠排列的,从而形成复合分组体系。例如,按学科和性别两个标志对高等院校本科在校学生进行复合分组,得到如下复合分组体系。
建立复合分组体系时,就根据统计分析的要求,在选择分组标志的同时,确定它们的主次顺序。
复合分组体系的特点是:第一层次分组只固定一个主要因素对差异的影响,第二层次分组则同时固定两个因素对差异的影响,当进入最后一个层次分组时,则所有被选择标志对差异的影响就全部被固定。在复合分组体系中,分组层次的多少,决定于所选分组标志的多少,从而决定了人们对经济社会现象认识的深度。
分组标志确定后,正确地确定分组组数和划定各组界限,就涉及到分组的具体方法。根据分组标志的特征不同,统计总体可以按品质标志分组,也可以按数量标志分组。
(一) 按品质标志分组的方法
按品质标志分组,就是选择反映事物属性差异的品质标志作为分组的依据,并在品质标志的变异范围内划定各组界限,将总体区分为若干性质不同的分组部分。
(二) 按数量标志分组的方法
按数量标志分组,就是选择反映事物数量差异的数量标志作为分组的依据,并在数量标志的变异范围内划定分组的界限,将总体划分为性质不同的若干组成部分。
就具体的分组而言,如果作为分组标志的变量的变异较小,可以将各个变量值单列一组,这种分组称为单项式分组;如果变量的变异较大,则应该把变量的整个取值范围依次划分为若干区间,一个区间内的所有变量值归为一组。区间的最大值称为上限、最小值称为下限。上限与下限之差为组距。
组距 = 上限-下限
这样的分组称为组距式分组。
在组距式分组中,各组的组距完全相等,叫等距式分组;各组的组距不完全相等,叫异距式分组。前者适用于总体各单位的变量值由小到大呈均匀变化的情况,后者则适用于不均匀变化的情况。各种形式分组情况如表2-3所示。
表2-3 各种分组举例
|
统计总体
|
分组标志(变量)
|
各个组别(各变量值组)
|
分组形式
|
例1
|
某市所有
居民家庭
|
电视机拥有量
(台/户)
|
0,1,2,3
|
单项式
分组
|
例2
|
某市所有
医院
|
病床位数(张)
|
100-900,200-299
300-399,400-499
|
等
距
式
|
组
距
式
分
组
|
例3
|
某市所有
商业职工
|
月工资水平(元/人)
|
70-80,80-90
90-100,……
|
例4
|
某市所有零售
商业企业
|
职工人数(人)
|
10-49,50-99
100-199,…
|
异
距
式
|
例5
|
某市所有
居民家庭
|
月收入水平(元/人)
|
800-1000,1000-1500
1500-1800,1800-2000
|
变量按其变量值能否无限分割可分为离散型变量和连续型变量。一般来说,离散型变量既可以采用单项式分组,也可以采用组距式分组,如表2-3中的例1、例2、例4;而连续型变量只能采用组距式分组,如表2-3中的例3、例5。在组距式分组中,两种类型变量在组距的表示方法上也有区别。按离散型变量分组时,各相邻的组限可以间断,二者不相重叠;而按连续型变量分组时,各相邻组的组限必须重叠。在相邻组的组限重叠的情况下,应按照“上限不在本组内”的原则正确统计各组的总体单位数。
2.2 OLAP的概念与理论
2.2.1 OLAP的概念
OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入观察[13]。
2.2.2 OLAP的目标
OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
2.2.3 OLAP的特性
1) 快速性:用户对OLAP的快速反应能力有很高的要求,系统应能在5秒内对用户的大部分分析要求做出反应。
2) 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
3) 多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。
4) 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
2.2.4 OLAP的多维数据概念和结构
多维结构是决策支持的支柱,也是OLAP的核心。OLAP展现在用户面前的是一幅幅多维视图。
1) 变量(Measures)
变量是数据的实际意义,描述数据是什么。一般情况下,变量总是一个数值度量的指标。统计应用中的数值型统计指标就是变量。
2) 维(Dimension)
维是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。假定某某是个百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店或流通渠道,更具体一点,如品牌、月份、地区等。对某一给定的商品,也许他想知道该商品在哪个商店和哪段时间的销售情况。对某一商店,也许他想知道哪个商品在哪段时间的销售情况。在某一时间,也许他想知道哪个商店哪种产品的销售情况。因此,他需要决策支持(其中非常重要的部分就是统计分析)来帮助制定销售政策。
这里,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。维就是相同类数据的集合,也可以理解为变量。而每个商店、每段时间、每种商品都是某一维的一个成员。每个销售事实由一个特定的商店、特定的时间和特定的商品组成,如图2-1所示。
图2-1 由时间、商店、产品三个维构成的数据立方体
“维”是OLAP的核心概念,是主题的基础,是对主题的一种类型划分。OLAP采取的与“维”有关的“度量”信息才是用户关心的焦点。
维有自己固有的属性,如层次结构(对数据进行聚合分析时要用到)、排序(定义变量时要用到)、计算逻辑(是基于矩阵的算法,可有效地指定规则)。这些属性对进行决策支持是非常有用的。
对应统计分组的概念,这里每个维都是分组的标志,维的成员就是参与分组的统计变量的值。
3) 维的层次(Hierarchy)
人们观察数据的特定角度(即某个维)还可以存在细节程度不同的多个描述方面(时间维:日期、月份、季度、年),我们称这多个描述方面为维的层次。一个维往往具有多个层次,例如描述维时间,可以从日期、月份、季度、年等不同层次来描述,那么日期、月份、季度、年等就是时间维的层次;同样,城市、地区、国家等构成了一个地理维的多个层次。
4) 维成员(Member)
维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么该维的维成员是在不同维层次的取值的组合。
5) 多维性(Multi Dimensions)
人们很容易理解一个二维表(如通常的电子表格),对于三维立方体同样也容易理解。OLAP通常将三维立方体的数据进行切片,显示三维的某一平面。如一个立方体有时间维、商品维、收入维,其图形很容易在屏幕上显示出来并进行切片。但是要加一维(如加入商店维),则图形很难想象,也不容易在屏幕上画出来。要突破三维的障碍,就必须理解逻辑维和物理维的差异。OLAP的多维分析视图就是突破了物理的三维概念,采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上显示多维视图的结构,使用户直观地理解、分析数据,进行决策支持[14]。
统计分组往往超越了三维的界限,统计人员希望能够从三个以上的维以及维成员的不同层次组合的角度观察统计汇总数据,从而发现有价值的统计现象,总结其中包含的规律。事实上,OLAP所提供对多维分析视图的各种操作和可视化技术恰恰是与统计人员的业务需求相吻合的。
6) 数据立方体
数据立方体定义为基本业务驱动力的可用聚合,它是适于通过SQL或其他接口进行查询的完整数据结构。同时,数据立方体允许对数据建模和观察,由维和事实构成。立方体是维的交叉点,提供企业感兴趣的事实结构,且事实是数值度量的。经典的立方体正如图3-1所示。
7) 数据单元(Cell)
多维数据集的取值称为数据单元。当多维数据集的各个维选中一个维成员,这些维成员的组合就唯一确定了一个变量的值。那么数据单元就可以表示为:(维1维成员,维2维成员,…,维n维成员,变量的值)(如2000年1月,上海,笔记本电脑,$100000)。
2.2.5 多维数据模型的物理实现
OLAP的执行与多维数据模型的支持是密不可分的,OLAP多维数据模型的实现有多种途径,其中主要有采用数组的多维数据库、关系型数据库以及两者相结合的方式,人们通常称之为MOLAP、ROLAP、HOLAP。但MOLAP的提法容易引起误解,毕竟根据OLAP的多维概念,ROLAP也是一种多维数据的组织方式[16]。
l 多维联机分析处理(MOLAP)
多维联机分析处理严格遵照E.F.Codd的定义,自行建立多维数据库来存放联机分析系统的数据,它以多维数据组织方式为核心,也就是说多维联机分析处理使用多维数组存储数据。
当利用多维数据库存储OLAP数据时,不需要将多维数据模型中的维度、层划分和立方体等概念转换为其他的物理模型,因为多维数组(矩阵)能很好地体现多维数据模型特点。
l 关系联机分析处理(ROLAP)
ROLAP以关系数据库为核心,以关系型结构进行多维数据的表示和存储,将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成“星型模式”。对于层次复杂的维,为了避免冗余数据占用过大的存储空间,可以使用多个表描述,这种星型模式的扩展称为“雪花模式”。
l 混合联机分析处理(HOLAP)
混合联机分析处理(HOLAP)利用多维联机分析处理技术存储上层汇总数据,利用关系联机分析处理存储细节数据,即低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。还有其他一些OLAP的方法,如提供一个专用的SQL 服务器,对某些存储模式(如星型、雪花型)提供对SQL查询的特殊支持。
2.3 数据挖掘的概念与理论
2.3.1 数据挖掘的概念
OLAP本身就是一种强大的分析技术,具有汇总、合并等功能,以及从不同的角度观察信息的能力。尽管OLAP工具支持多维分析和决策,然而对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍需要其它专门分析工具。这些分析工具恰恰就来源于目前比较流行的一门学科,即“数据挖掘(data mining)”。
数据挖掘就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的,所提取的知识表示为概念、规则、规律和模式等形式。数据挖掘作为知识发现过程的一个特点步骤,是一系列技术及应用,或者说是对大容量数据及数据间关系进行考察和建模的方法集。其目标是将大容量数据转化为有用的知识和信息[17]。
尽管数据挖掘看上去像是出现不久,其实对这种方法的研究和实践已有很长时间了,可以追溯到30多年以前。在20世纪60年代早期,统计分析方法被广泛采用。最初的的统计分析由古典统计例程组成,如相关(correlation)、回归(regression)、X2(chi-square)和交叉表(cross tabulation)。虽然大部分现代数据挖掘包仍然提供这些古典方法,但是数据挖掘已经与这些第一代的统计手段偏离甚远,而是成为帮助我们解释或预测“数据中的隐含趋势”的越来越具有洞察力的和功能强大的方法[12]。
2.3.2 数据挖掘的任务
下面列举了根据数据分析工作者的不同目标来划分数据挖掘任务的类型:
1) 探索性数据分析(Exploratory Data Analysis,EDA)
正如名字所暗示的,这种方法的宗旨就是对数据进行探索,在探索时我们对要寻找什么并没有明确的想法。
2) 描述建模(descriptive modeling)
描述模型的目标是描述数据(或产生数据的过程)的所有特征。
3) 预测建模(predictive modeling)
预测建模的目标是建立一个模型,这个模型允许我们根据已知的变量值来预测其他某个变量值。
4) 寻找模式和规则
上面列出的几类任务都致力于建立模型。还有一些数据挖掘应用是致力于模式探测的。比如在交易数据库中发现频繁出现的商品组合,该问题已经吸引了很多数据挖掘者的注意力,而且已经采用基于关联规则(association rule)的算法来解决这样的问题。还有一个重要问题是如何决定哪个因素真正导致了异常行为,也就是统计学家所说的孤立点检测(outlier detection)问题。在高维情况下,这会变得更加困难[18]。
5) 根据内容检索
这种情况下,用户有一种感兴趣的模式并且希望在数据集中找到相似的模式。这种任务对于文本和图像数据集合应用最普遍。
尽管上面的五种任务彼此间有明显的差异,但它们也有很多共同的特征。例如,很多任务都具有“任意两个数据向量间的相似性或者距离”的概念。还有一个共同点是评分函数的思想(用来评估一个模型或模式拟合数据的好坏程度),不过对于不同类型的任务,具体的函数形式往往有很大的差异。另外很明显的一点是,不同的任务需要不同的模型和模式结构,就像不同种类的数据需要不同的结构一样。
数据挖掘的目的是从存储于大型数据库中的数据中发现某些重大的、有价值的知识或模式,其主要功能具体的包含以下几项。
1) 特征化
即将与任务相关的一组数据汇总在一个综合的多维数据集中,这样就可以从不同角度和多个逻辑层次浏览数据或按不同规则抽取数据。OLAP操作就实现了这样的功能。
2) 比较
即包含一系列的区分规则,用以区分研究集合(目标类)与其他集合(对比类)之间的不同之处。
3) 分类
用于分析一组训练(training)数据(即类标签已知的数据集对象),并基于数据特征为每一类建立模型。分类规则是基于分类进程生成的,这个分类进程可以用于分类未来数据,并确保数据库的每一类数据更易于理解。
4) 关联
指在数据库的关联数据集的不同层次之间挖掘一组关联规则(A1^…^AiàB1^…^Bi)。
5) 预测
用来预测丢失数据的可能值或权衡一组对象的影响因素,即寻找影响一个主题的各因素之间的相关性(利用统计分析),并针对主题来预测这些因素的相对贡献值。
6) 聚类分析
将数据库或数据仓库中的选定数据集聚和成簇,以确保内部相似性高,与外部差异大。
7) 时间序列分析
一种对数据库或数据仓库中基于时间的数据进行分析的方法。包括相似性分析、时间分析、序列分析和趋势分析。
由于统计数据本身就是按照一定的标准、规则进行组织的,因此已经体现出了分类的特征,不需要再专门进行分类处理。但是由于统计指标繁多且相互关系复杂,并存在潜在的影响,不同的时期体现出不同的特征,所以理所当然的需要进行时间序列分析,趋势预测以及找出某些重要经济指标间的关联关系。
2.4 联机分析挖掘与统计的结合
OLAP结合数据挖掘使在多维数据集的多个维度和不同层次之间挖掘有价值的知识变得简单易行,各种数据挖掘功能还可以交叉运用并集成于一体,使数据挖掘达到高度的交互性和灵活性。联机分析挖掘提供在不同的数据子集和不同的抽象层上进行数据挖掘的工具,通过它为用户选择所期望的数据挖掘功能动态修改挖掘任务提供了灵活性。
需要特别注意的是,联机分析挖掘与通常的数据挖掘不同之处在于前者一定是与各种多维数据结构的构建过程密不可分的。因为联机分析挖掘一定包含OLAP的操作过程,需要首先对原始数据进行一定的预处理。实际应用当中,OLAM操作过程主要分为以下三种形式:
1.构建数据立方体,然后挖掘
由于建立了多维数据集,就可以在立方体的任何层次和任何部分进行数据挖掘。这就意味着在进行数据挖掘之前,必须首先选取数据和划分逻辑层次(粒度级)。例如,可以首先裁剪一个立方体,使之具有合适的大小,如“year=1997”,选取一个需要的层次,如在store维度中的city层次,接着执行一个预测模型。
1. 挖掘,然后构建数据立方体
即指首先对立方体进行数据挖掘,然后将获得的数据结果集建成一个新的立方体,以便做进一步的研究。
例如,可以首先对一个“market”多维数据集按特定的维度或度量,如profit-made,进行分类操作,对得到的每一类数据,如high-profit类,建立新的立方体,而后可对其进一步挖掘,如下钻到细节层查看特征。
2. 挖掘和构建数据立方体同时进行
结合挖掘操作和建立立方体操作的一个灵活的方式是,在立方体的多个粒度级上实施类似的挖掘,并在挖掘过程中不断调整立方体。这样,同样的挖掘就可以在立方体的多个和不同层次上进行。
例如,在“market”数据中挖掘关联规则,可以沿一个维度如time下钻,目的是在一个低的层次上发现关联规则,如从year到month。
OLAP数据挖掘还可能有其他的结合方式,如“挖掘、再挖掘”的模式。这种模式的例子是先对数据集分类,然后针对每一类挖掘关联规则。对于包含海量数据的巨型数据仓库,提供灵活的数据挖掘方式是至关重要的。这样用户才能在操作简易的前提下,细致地研究多维数据集,选择挖掘空间和需要的逻辑层次,以及测试不同的挖掘模型和方法。要做到这一点,挖掘将达到高度的交互性、趣味性和效果显著性。
一个典型的OLAM与OLAP共存的系统实现模型如图1-1所示。
图1-1一个集成的OLAM和OLAP系统架构
对于庞大的统计数据集(特别是非常庞大的数据集),我们可能无法轻易知道数据中的规律,即使是非常显而易见的,对数据进行简单的目测不是办法。实际统计业务中,统计工作者们为了进行分析和决策,往往要对大量的基层数据进行即席查询(Ad-Hoc Query)[]或者查询汇总,从多个角度和各个层次上浏览数据。这意味着对于很大的数据集,我们需要周密完善的搜索和分析方法来弄清楚对于小数据集可以立刻得到的特征。此外,正如我们前面所提到的,很多情况下统计分析的目标是要得到针对现有数据外的某种推理。
将电子计算技术和数据传送通讯系统联系起来,建立电子计算机网络系统,使得统计工作发生巨大变革。它将使统计工作人员从繁重的汇总工作中解放出来,集中力量进行统计设计和统计分析的工作。现在,将联机分析挖掘的方法应用到电算化汇总和分析中,令统计工作的效率和质量得到进一步的提升,实际上也是一种本质上的飞跃。
第三章 OLAM在统计系统中的实现框架
随着社会主义市场经济的发展,上海市各区的城市建设速度不断加快。如何更准确、更快速地提供统计信息服务是投资者、企业和政府部门的共同需要。他们都希望尽可能控制成本,减少风险,一方面提高管理和决策水平,减少失误和盲目性,另一方面抓住有利时机,改善投资环境和服务质量,使城市建设保持高速增长的势头。然而,随着城市化进程加快,人口膨胀、环境污染、交通拥挤、住房紧张等问题也越来越突出、网络化管理和动态调控需求增加。要使城市建设和管理与社会政治、经济、文化、科技的发展相适应,保证城市的可持续发展,必须采用先进的管理方法和技术手段,尤其是统计信息的现代化管理已经不能再拖延了。
为了满足这样的迫切要求,我们开发了一套功能完善的统计信息管理应用系统,该系统对于各区县级的统计单位普遍适用,并已在上海市某区统计局使用,可以有效的完成各种统计业务功能。
3.1 系统满足的数据需求
在系统数据库中建立统计历史信息库,为统计信息时序分析奠定基础,比如对于上海市某区统计局我们就建立了自1992年以来的历史数据库。
在一致、准确、完整定义元数据的基础上,确定统计指标、统计指标体系、统计分类和其他统计标准,建立统计部门的年度数据库和季、月度数据库。同时,要提供方便的元数据管理手段,以适应统计业务数据库表动态结构的特殊性。具体包含以下的内容:
Ø 统计指标建立原则
1.
指标应具有统计专业的代表性、典型性。
2. 确保指标数据的时间连续性,有利于建立统计历史库。
3. 按统计从微观到宏观,保持统计指标的层次性。
4. 按统计专业分类,如工业、商业、外贸、投资等方面建立统计指标体系。
5. 所建体系必须保持与市局数据交换的兼容性。
6. 所建体系应该考虑指标的可维护性,考虑未来数据结构变化的可能性。数据库表中的统计指标字段只增不减。
7. 考虑系统查询方便,运行高效。
Ø 统计指标的分类
基层表指标:主要是统计基层表的指标集。
汇总表指标:主要是全区用于汇总目的的指标集。
统计局各专业科室负责提供指标解释、指标变迁解释,指标汇总关系定义。
Ø 统计数据源分析
1. 统计业务基层数据,即统计各专业月度、年度统计数据。
2. 汇总数据分为月汇总、年汇总。
3. 月汇编数据,比如以上海某区“网上直报”数据库为准。
4. 年汇编数据,比如上海市某区统计局包括1993-2003年历年具有统一指标的历史数据。
5. 普查、调查数据库,包括经济普查、人口普查、农业普查和不定期调查数据。
6. 从其他委办局得到的数据(如财务局、农委、税务局、工业局、公安局、环保局)。
Ø 基层库的特点
1. 月度基层库,反映各单位上报的每月信息。
2. 年度基层库,反映各单位上报的全年统计信息。
3. 指标明确,由上级统计部门统一制定,个别表格由基层统计局制定。
4. 数据量大,统计信息翔实,信息偏微观。
5. 由各专业自行分头维护。
基层库满足的数据需求有:
1. 提供自定义与专业制度相对应的基层数据库指标集。
2. 按专业指标、按统计时间,将专业基层数据文件导入应用系统数据库的基层库中。
3. 建立最近2-3年的专业基层库,作为系统的初始数据。
Ø 汇总库的特点
1. 月度汇总库,反映区县每月统计的汇总信息。
2. 年度汇总库,反映区县全年统计的汇总信息。
3. 汇总指标以年汇编中的指标为基准,根据基层统计局实际需要建立。
4. 信息偏宏观,数据总量相对较少,反映区县的汇总统计信息。
5. 汇总数据来源为各专业基层库、普查库,少量汇总数据直接从其他委办局获得。
汇总库满足的数据需求有:
1. 确定与专业制度相对应的汇总数据库指标集(月度、年度)。
2. 建立以往多年分专业的汇总数据库,作为系统的历史汇总库。
3.2 系统满足的统计功能需求
Ø 统计指标、表的维护
指标维护模块旨在对统计基层数据库或汇总库指标体系进行维护。方便用户对统计中各类指标的添加、修改。
系统实现的具体功能包括:
1. 指标集(体系)的新建、编辑、保存。
2. 指标集(体系)采用树形结构显示,并根据所属专业的不同分目录存放。
3. 指标集(体系)中所含指标的信息显示在列表中,可供使用人员方便地进行指标信息新建、编辑、保存等操作。
4. 特别的,各指标集(体系)内所含指标信息不允许删除,否则将造成历史数据的不一致现象。
系统负责实现各统计专题表的维护,包括新建表,表结构的定义,表结构的编辑,表结构的保存等。一旦在系统中定义了统计表,该表中的指标不允许被删除,除非删除整张汇总表。
Ø 通用数据查询
由于本系统主要完成统计数据的存储和管理,因此必须提供功能强大且灵活的数据查询功能,方便使用人员在大量统计数据中搜索所需信息。统计业务中常用的查询操作应可以保存为模板,操作人员可以重新打开该查询模版,编辑各种查询要素,然后重新保存或者直接执行,当某个查询模板失效后应能够删除。同时,查询模板根据主题和定义人员身份的不同分文件夹存放,这里的文件夹表示一种逻辑组织结构,既可以是面向专业的,也可以是面向特定用户的,保证只有特定操作权限的人员才能看到。
Ø 统计汇总和统计分析
统计汇总指根据基层数据获得业务所需的各种粒度级别上的汇总数据,根据汇总目标的不同又可分为定义主题汇总表进行汇总和定义动态汇总模板进行汇总两种形式。前者包括月度汇总表和年度汇总表,分别用以存储形成月报和年报这类固定主题的汇总数据;而后者是为了方便各种用户自定义分析,按照定制的维度和度量快速灵活的汇总出各种情况各种粒度上的聚合数据,同时这些数据整体存储在一张特殊汇总表的大字段中。同数据查询类似,统计业务中常用的汇总操作应能够保存成模板,汇总模板也是可以被打开,编辑和删除的。不同身份的用户可以看到和使用的汇总模板也有所不同。
Ø 统计分析报表及图表展现
统计数据上报和对外展示分析结果的主要方式是各种报表,其中包括各个专业的,各个时段的,各种样式的报表,报表的样式还应允许统计业务人员根据实际需要灵活方便的调整,并能直观的反映出数据间的层次关系。
数据查询、汇总甚至分析的结果还可以通过图表的形式直观的展现,图表的风格允许用户自定义,包括直方图、线图、饼图等,可以2D或3D的形式显示。尤其是对汇总结果的分析能以图表的形式反映出时间上的变化趋势,甚至统计指标间的依赖关系也能够通过图表反映出来,实现分析的可视化。
最后两部分内容是该统计信息管理应用系统的核心功能,且承前启后,紧密联系,实现的难度也是最高的。
3.3 联机分析挖掘技术在本系统中的实现架构
为了满足上述数据和功能的要求,在统计信息管理应用系统中首先按照各种分组标志的组合对基层数据进行汇总和再汇总,然后在各种级别的汇总结果集基础上进行时序分析等。由于种种原因,应用系统中并没有完全采用数据库本身提供的API,而是采用一种通用的OLAP聚合算法完成对统计数据库的数据汇总操作,并在此基础上实现进一步的数据分析和挖掘。系统中实现多维数据集构建与数据挖掘操作的架构如图3-1所示,至于不采用数据库API完成OLAP的有关因素将在以下的章节中具体论述。OLAM在统计应用系统内的具体实现过程也将在下面的章节中按照该图所示的框架自底而上逐层展开论述。
图3-1统计信息管理应用系统中采用的OLAM实现架构
本统计信息管理应用系统后端推荐采用Oracle10g数据库系统,它是业界公认的具有高效、稳定的大型数据库管理系统,同时在Oracle家族中也是性能/价格比最高的产品。本系统涉及大量的统计数据,而且数据还会以较快的速度不断的增长,再加上Oracle本身提供了强大的应用开发能力,因此选择这样的大型数据库系统非常合适。
该统计信息管理应用系统采用C/S结构实现主体部分功能,并采用B/S结构实现网上统计数据展现功能。为了最大限度的兼顾两种架构下基础类库和业务模型的统一,选择微软的Visual Studio.NET 2003作为开发和集成平台。由于.NET提供了丰富且功能强大的开发组件,集成开发环境(IDE),优美的用户操作界面,大大提高了系统人机交互的能力,确保业务人员能够快速的掌握系统操作方法,提高工作效率。
对于上海市某区统计局所使用的这套统计信息管理系统,由于要在关系型数据库系统中存储1992-2005年的历史统计数据,数据量已经比较庞大,如果采用MOLAP的方式则实施难度很大,因此我们采用了ROLAP的方式。
由于许多情况下,基层统计部门的分类目录的编制并未严格按照国家标准进行,所以我们开发的应用系统中为统计人员提供了灵活的分类目录定义功能,允许用户按照各种标志进行分组,甚至还可以在现有分组的基础上自己定义派生出来的分组。
需要特别指出的是,数据立方体是一个逻辑概念,由于可视化技术的限制,人们很难直观的查看数据立方体的样子,因此多数情况下只是在理论上研究而很少有软件能较好的实现。鉴于此,微软的Analysis Services提出了多维数据集的概念,代替数据立方体,表现的时候采用嵌套表形式以便于观察[15]。在本文的研究过程中,认为通常情况下数据立方体和多维数据集是等价的。在上海市某区统计局所使用的这套统计信息管理应用系统中,我们就采用了物理上和逻辑上的二维表形式存放多维数据,前者指数据库表,后者指内存中的数据集合,它们都由维和事实组成,在逻辑上呈现多维特征。
在该统计信息管理应用系统中,我们将数据挖掘技术反过来应用于统计业务,本身就具有天然的优势,并且能够产生传统统计学方法无法取得的效果。