您现在的位置是:首页 > 行业 > 制造 >
烟草业务联机分析处理系统的实现
摘要当今,许多企业已认识到只有靠充分利用、发掘其现有的数据,才能实现更大的商业效益。企业日常的商务应用会生成大量的数据,这些数据若能用于商业决策支持,则会带来显著的附加值。...
1 引 言
当今,许多企业已认识到只有靠充分利用、发掘其现有的数据,才能实现更大的商业效益。企业日常的商务应用会生成大量的数据,这些数据若能用于商业决策支持,则会带来显著的附加值。如果再加上市场分析报告、独立的市场调查、质量评测结果和顾问评估等外来数据,则上述处理过程产生的效益将不亚于开拓出一个新的市场。同时,对于处于激烈竞争中的现代企业,若这种商业决策支持贯穿于整个企业,那么它对整个企业行为的规范及潜力的挖掘所起的作用将是不言而喻的。因此,建立一套完善的计算机信息分析系统,对于企业来说具有很重要的现实意义。
联机分析处理技术(On-Line Analytical Processing,简称OLAP)是信息技术领域近年来兴起的一种决策支持系统手段。在众多的决策支持技术中,OLAP技术以直观的数据操作、灵活的分析功能、可视化的结果表达等特点,在数据仓库技术的支持下脱颖而出,为企业的决策支持提供了令人满意的解决方案。文章结合某市烟草决策支持系统,介绍联机分析处理技术的理论框架,以及基于该理论下烟草数据分析系统的设计思路与实现方法,为相关系统的建立提供可借鉴的成功经验。
2 联机分析处理介绍
联机分析处理技术是在市场竞争愈加剧烈,决策人员迫切需要准确、及时并且可以灵活访问的决策信息的背景下在国外兴起的。它专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求对数据采取切片、切块、旋转等各种分析动作剖析数据,使最终用户能从多个角度、多侧面地观察包含在数据库中数据的信息和内涵,帮助他们准确掌握企业的经营状况,了解市场需求,从而制定出正确的方案。简单地说,OLAP就是共享多维信息的快速分析。
联机分析处理是E.F.Codd于1993年提出的。当时,E.F.Codd认为联机事务分析处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单网络查询及报告不能满足用户分析的需求,决策分析需要对关系数据库进行大量的计算才能得到结果,而且查询的结果并不能满足决策者所提出的问题,因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP概念。同时,E.F.Codd给出了OLAP产品评价的十二条基本准则。具体来说,他认为OLAP应是具有以下特点的工具集:多概念视图;透明性;易访问性;一致的报表操作;C/S结构;通用的维结构;动态稀疏矩阵处理;多用户支持;非限定的定义操作;直接数据操作;弹性报表;不受限制的维和聚集级别。十二条评价准则的提出, 有力地推动了OLAP的深入研究,它对OLAP产品识别及后来发展方向确立都有着十分重要的作用。
2.1 联机分析处理的分类
按OLAP服务器上数据组织的差异,可以简单地将它分为两个大类: 基于关系数据库的ROLAP和基于多维数据库的MOLAP。现概要介绍它们的特点。
ROLAP:当使用ROLAP 存储方案时,OLAP服务器把聚合放在相关的数据仓库中,并使用数据仓库中的数据创建立方体和聚合。根据ROLAP 方案,OLAP服务器应使用构成星型图表的表格创建立方体和聚合,即这些表格不被复制到多维数据库中。如果要存储聚合值,那么这些值将存储在相关的表格中。因为ROLAP 把数据存储在关系表中且可以查看,故对多维数据库没有经验的系统管理员也可以熟练地维护他们的OLAP关系型数据库,并参与数据库工作。由于OLAP系统可以直接使用数据仓库中的数据,故ROLAP 使用的磁盘空间较少。但由于数据组织采取的是关系型格式,而不是多维格式,因此,进行数据分析需要时间较长。
MOLAP:当使用MOLAP 存储方案时,OLAP服务器将所需的全部数据放入一个特殊的多维数据库(MDDB)中,MDDB是类似于“超立方”块一样的结构。和关系型数据库用表和列来存储数据相类似,多维数据库用的是逻辑上的多维数组来存储数据。具体地说,多维数据库是由许多经压缩的、类似于数组的对象构成,这种对象通常带有高度压缩的索引及指针结构。每个对象由聚集成组的单元块组成,每个单元块都按类似于多维数组的结构存储,并通过直接偏移计算进行存取。因为索引只需一个较小的数来标识单元块,因此多维数据库的索引较小,只占数据空间的一小部分,可完全放进内存。由于数据仓库中的数据必须移入多维数据库,故MOLAP 需要额外的磁盘空间。然而,这些数据是压缩的,且使用位图索引,故所需的存储空间要比原始的关系型数据仓库要少。因此使用多维数据库存储数据,数据返回时间是固定而快速的。
从以上的分析可以看出,MOLAP及ROLAP两种技术各有特色。相对而言,ROLAP在大数据量、维变化、数据变化及软硬件的适应性方面要强于MOLAP,但由于MOLAP是应多维分析而产生的,有着关系数据库不可比拟的优点,假以时日,MOLAP应更有广阔的天地。基于以上原因,烟草数据分析系统在OLAP服务器上数据存储采用的是基于MOLAP的组织结构。
2.2 OLAP的实施
由前文可知,联机分析系统是建立在C/S结构之上的,同时,由于它要对来自基层的操作数据(已建有数据仓库的,操作历史数据也可由其提供)进行多维化或预综合处理,所以它和传统OLTP软件的两层C/S结构不同,而是三层的C/S结构。如图1所示。
图1 OLAP的三层C/S逻辑结构图
这种结构的优点在于将应用逻辑(或业务逻辑)、GUI及DBMS严格区分开来,复杂的应用逻辑不是分布于网络上的众多PC机上,而是集中存放在应用服务器上,由服务器提供高效的数据存取, 并安排后台处理以及报表的预处理。由于OLAP服务器加强和规范了决策支持的服务工作,集中和简化了原客户和数据库服务器的部分工作,从而降低了系统数据传输量,因此这种结构形式工作效率更高。
下面就以某市烟草数据分析系统为例来说明基于联机分析处理技术的辅助决策系统的构造步骤。
3 系统设计与实现
3.1 烟草业务分析
烟草行业是烟草经营和专卖管理结合的国家高度垄断的行业。卷烟作为一种特殊的商品,即专卖品,其生产经营比一般商品更有特殊性。如国家对卷烟生产实行重税,寓禁于征,这既能为国家增加财政收入,又体现了国家不鼓励消费的政策思路。同时国家严格控制卷烟生产计划,对市场供求保持稍紧平衡,对消费提倡适度满足;卷烟经营实行批发垄断,不提倡薄利多销,更不允许搞低价竞销等方法来刺激消费,使国家和企业利益流失。反映在经营上如卷烟的销售价格,必须按上级规定,由定价小组集体确定和监督,任何个人和少数人不得擅自定价;在进货上,各子公司必须按严格的计划调拨,不允许越级、体外进货,但相邻地区可以调节;烟草系统内部必须按规定批量销售,不允许卖大户、大甩卖、多头放水等给非法批发市场以生存的活水源头,真正做到了“专卖经营权”、“市场定价权”、“宏观调控权”三权的贯彻执行。这些特点对如何充分发挥烟草行业领导作用,特别是如何利用决策辅助系统来发挥其指导、管理、服务、协调职能,加强对卷烟的合法经营、市场价格、营销方式、库存量度、网络建设等的管理提出了更高的要求。
某市烟草公司在开发经营决策辅助支持系统之前,公司已在购进、专卖、库存、财务和劳动工资等方面实现了计算机管理应用,这些体系通过建立新型的营销管理模式,规范了企业的经营行为,加大了市场调控力度,营造了卷烟市场良好环境,并积累了大量的业务经营数据。如何利用这些业务经营数据快速、准确、高效地为各级领导的生产经营管理决策提供依据,使领导的决策建立在科学可靠的基础上,于是,开发经营决策支持系统的任务就提到了议事日程上。其实,在原系统中就包含有关于业务综合分析的模块。但是,它们存在着一些缺陷:如查询的数据源并未和运营数据分离,影响了企业的实际操作;不能提供为获取某种分析结果而进行逐级细化的操作,伸缩性差;更主要的是由于相关的信息分布在各个信息岛上,信息综合不能及时完成,从而不能实时地把工作的完成情况反馈给领导,影响了领导的决策。为解决这些问题,在原有的数据库基础上,着手建立中间数据,把用于查询的数据源从OLTP系统中分离出来,利用联机分析处理理论,并结合烟草行业的特点,建立起相关的多维分析数据模型,同时,按照用户的要求定制相应的报表、图表等,供公司管理者查询主要经济指针,并提供能用人机对话方式与决策者进行交流的决策辅助功能。
结合烟草的特点以及企业经营运作的主要框架,系统确立了进销存管理、价格管理、品种管理、客户管理等几个主题。它们分别代表企业决策关心的几个侧面:进销存主题描述企业购进、销售及库存的数额及完成情况;价格管理描述的是市场价格的信息,价格定价权情况,并预测价格对商品的影响;品种管理描述的是商品的产地、类别及销售的情况,同时排列出每个品种在每个目标中的比重;客户管理对客户进行分类和管理。进销存作为活动记录把其它的数据主题联系了起来。目前已建立起来的,也是最为迫切的是进销存主题。
3.2 烟草决策支持系统体系结构
图2是市局中心联机分析系统结构示意图。它包括数据采集、构筑中间数据库、多维数据库、数据展现及系统管理几个部分。它采用把相关数据透过远程网络复制到临时库的办法,实现了分析数据与操作数据的分离;随后按主题建立起相应的数据仓库与多维数据库,同时利用访问支持工具,使客户机能通过应用程序服务器按所给定的权限透明地访问数据库服务器。由于应用程序服务器是基于Web方式的,故远程用户可以通过拨号与数据库建立连接,方便了用户的实时查询。现以它为例来说明基于联机分析处理的辅助决策系统的构造步骤。
图2 烟草决策辅助支持系统结构图
3.2.1 数据复制与采集的过程
即通过DDN网络把各个网点的有关经营数据定时地复制到中心服务器。由于各区县分公司所采用的数据库不同,数据采集系统相应采用多种数据库访问技术,实现跨地区跨平台地从业务系统抽取数据,这也使得在数据驱动的信息分析环境中,数据采集系统成为工程顺利推进的基础环节。数据复制的工具很多,如IBM的DataPropagator Relational(用于同构数据复制)和DataJoiner(用于异构数据复制)产品等。它的原理是复制工具从源数据中俘获数据修改,并将这些修改应用于数据库,然后通过分级表将数据修改从源传送到目标库。SQL被用来按用户定义的时间间隔从分级表中检索和转换数据。由于业务管理及通讯线路上的原因,复制过程是工程最容易出问题的地方,这些非技术因素有时会直接影响到工程的进度。值得一提的是,由于现有数据量不是非常大,故目前采用的是先把数据复制到中心数据服务器的办法。随着数据的增多,可以把中间数据库直接建立在各个支公司或分公司上,这种改进可以减少数据入库的时间。
3.2.2 中间数据库设计
即数据仓库的建立。数据仓库的数据具有四个特征,即数据是面向主题的、集成的、不可更新的和随时间变化的。中间数据库考虑到这些特点,并按照烟草经营供应链中的物流、信息流、资金流、增值流、业务流以及贸易伙伴关系,对采集上来的数据进行归类,同时收集相应的组织记录、商品记录、仓储记录及业务方式记录作为过滤表,以保证管理人员对数据进行筛选、转换和统一管理。可以看出,这些中间数据库其实就是实际意义上的数据仓库和数据集市。由于这些信息真实而全面记录了烟草业务经营过程,且已按可能存在的主题加以初归类,因而任何一个主题都可以从这些记录表中抽取数据,保证了系统的前瞻性,它们也成为多维数据分析实际意义上的数据源。同时因这些记录已和运营数据分离,以后的抽取当然不会对企业的业务操作产生任何影响。以下给出部分烟草数据分析系统中间数据库信息:
商务信息:日期、供货方信息、要货方信息、商品信息、数量、单价、金额、业务方式信息、费用、成本、最小单位数量、最小单位单价;
资金信息:日期、支付方信息、支付方银行信息、收入方信息、收入方银行信息、金额、支付方式编号、费用;
货物信息:日期、发货方信息、收货方信息、发货方位置信息、收货方位置信息、数量、价值、业务方式信息、商品编号、费用、最小单位数量;
过程关系信息:日期、业务信息、商务记录信息、资金记录信息、货物记录信息。
3.2.3 构建多维数据库
构建多维数据库的过程,其实就是创建多维数据库的入口数据源,并导入多维数据库服务器的过程。具体的步骤是:按照不同的主题概念,设计出相应的星型模型或雪花模型,并创建视图,同时补充进有用的外部数据,以作为多维数据库的入口数据源。另一方面要依照烟草中间数据库中的过滤表,对相关的数据进行统一格式的处理。现以进销存主题为例加以说明。由于数据是按照决策分析的主题来组织的,可以发现,烟草进销存主题考察的指标是购进、销售、利润、库存、以及相关的环比、同比情况;分析的角度不外乎时间、商品类别、产地及业务部门等。每个分析的角度可以有不同综合程度的汇总。于是可以归纳出如图3所示的烟草进销存概念模型。它包括了所有的事实、维和粒度,及其之间的相互关系。根据概念模型,可以非常简单地得到该主题的星型逻辑模型,从而得到相应的维表及数据表。可以定期地把仓库数据导入多维数据库,并允许数据在装入过程中执行信息的自动预计算和聚合后以不同层次的综合汇总存放。
图3 概念模型
近来,OLAP在国外获得了飞速的发展,并出现了近30多种多维分析产品,DB2、Miscrosoft、Informix、Oracle、Sybase等都有了自己的多维数据库产品。现以IBM公司的DB2 OLAP Server为例。IBM DB2 OLAP Server是IBM DB2数据库与Arbor Essbase OLAP引擎相结合的产物,该产品实现了三层客户机/服务器体系结构,可对复杂的多维数据进行分析并负责处理交互的分析过程,和根据用户指定的维设计自动建立一个最优的星型模型,并用它来创建各种多维计划、分析和报告应用程序。在存储空间与执行效率方面,该产品设计了dense及sparse两个维,先由每个sparse维的一个元素构成一个组合且当该组合有数值时,Essbase才创建一个数据存储单元,然后与每个dense维的每个元素进行组合,并建立相应索引,从而大大减少数据单元数目,解决了多维数据库存储空间的迅速膨胀问题,提高了系统效率。
3.2.4 数据展现部分
数据仓库/多维数据库中的数据必须通过与用户的交互,才能转化为面向最终用户、面向业务主题的商用信息,这也是建立辅助系统的最终目的。数据展现系统通过将多维数据库中的数据以可视方式展现给决策者和商业分析人员,使得数据更容易被理解,价值更容易被发现,从而大大提高了决策的准确性和作出决策的速度。具体而言,展现可分为三个部分,即对于一般管理人员的稳定的、综合性的管理分析信息;对于报表统计/分析人员的日常报表制作/分析需求功能;以及对于高级管理和决策人员的高度综合和预测性决策辅助信息。其形式包括数据查询、统计分析、信息解释、数据警报、多维分析和信息发掘,甚至于利用国际互联网的浏览器等。
现在市场上有许多以多维数据分析为目标的展现工具软件,如Hyperion,Microsoft,Brio,Business Objects等公司开发出的软件,其中以@O/-Q+A( 公司所占的市场份额最大,它们均致力于辅助决策支持或多维视图的查询和报告需求。以Hyperion公司的Hyperion Wired for OLAP为例,它采用的是可基于Web访问的以服务器为中心的体系结构,采用电子表格或图示方式,支持多用户同时读写,支持旋转、跳转、上卷、下钻及警报等数据分析操作,同时还提供众多的计算公式以增强数据的展现功能,能满足用户对数据进行多层次、多角度的分析的要求,使企业决策者能及时掌握企业的运行情况和发展趋势,并为制定计划和长远规划提供理论指导。
3.2.5 系统管理部分
为保证系统的正常运行,必须制定策略来定期执行维护和更新工作。烟草进销存库系统管理部分包括权限管理与元数据的管理。权限的管理主要是管理、设置用户权限级别,使用户只能在给定的权限内对业务情况进行分析操作,以保证数据的安全。元数据的管理是整个数据系统的核心。所谓元数据,简单地说,就是有关数据的数据,它记录了数据的产生,数据的定义以及数据之间关系等种种数据的属性描述、数据结构、业务规则、转移规则、备份准则以及综合算法等等。元数据显示了系统整体的组织结构,贯穿于整个的系统流程中,包括复制、备份、中间数据库、OLAP服务器及前端展现各部分。如当业务规则发生变化时,用户只需把变化后的业务规则描述出来,存入元数据库,前端工具就可以自动从元数据库中取得相应的业务规则,以自动适应用户的需求变化。
6 结束语
任何好的商务决策都需要事实和数字。一个决策的正确程度取决于所使用的事实和数字的正确程度。随着竞争的增加,决策需要在较短的时间内做出。因此,在该时间段内,能够尽可能地获得相关信息就变得越来越关键。同时,为了使决策具有较好的正确度,需要跨越的决策分支也变得越来越大,而这需要更长的时间。因此,需要有这样的自动数据分析工具集,它能帮助决策者减少高速精确分析大量数据所需的时间,从而及时、正确地对市场做出对策,使企业保持和提高其竞争性和可赢利性。联机分析理论及其产品的出现,有效地解决了以上的大数据量与分析决策速效的矛盾,文章介绍的烟草决策辅助系统就是基于联机分析理论构筑起来的一个成功例子。可以预见,联机分析处理技术必将在包括烟草等在内的快节奏商业环境中有更加广阔的前景。
(本文不涉密)
责任编辑:
上一篇:PDM系统的实施方法论
下一篇:数据挖掘在电机制造行业中的应用