石油钻井企业设备管理数据仓库多重粒度模型的研究
本文作者(王武习),请您在阅读本文时尊重作者版权。
摘要:数据仓库在决策支持系统(DSS)中起着核心作用,而要创建一个好的数据仓库,如何划分数据粒度是要解决的一个重要问题。该文通过在石油运输企业数据仓库建立多重粒度模型,以便更好地满足不同层次用户的决策分析需要。从而提高效率,为企业创造更大利润。
关键词:石油;钻井设备;数据仓库;多重粒度Oil Drilling Equipment Management Data Warehouse Model of Multi-granularity
WANG Wu-xi
(School of Computer, Xi'an Shiyou University, Xi'an 710065, China)
Abstract: Data Warehouse in Decision Support System(DSS) plays a central role, and to establish a good data warehouse, how to divide the data granularity is an important issue to be addressed. In this paper, the oil transportation enterprise data warehouse to establish multi-granularity model, in order to better meet different levels of decision-making analytical needs of users. Thereby enhancing efficiency and create greater profits for the enterprise.
Key words: petroleum; drilling equipment; data warehouse; Multi-granularity
随着我国石油企业的迅速发展和计算机数据库技术的迅速发展和广泛应用,企业各项管理工作尤其是设备管理的许多业务得到了联机事务处理信息系统的支持。在石油企业钻井设备数据管理中,数据的堆积越来越大,对于管理和决策层的人员来说,分析复杂、庞大的数据已经无所适从,为了能从中挖掘出可信的、新颖的、能被理解的面向各种需求的统计信息和决策支持信息,对数据仓库中的数据进行粒度的划分无疑有着极为重要的意义。基于此本文提出了一种在设备管理数据仓库设计中采用数据仓库中数据粒度划分的模型,然后以此为依据,对各种设备管理数据进行数据挖掘,结合实际需要为决策提供可靠的信息。
1多重粒度模型的建立
1.1 多重粒度的提出
确定系统的数据粒度是数据仓库逻辑模型设计的重要步骤。而要确定合理的数据粒度,首先需要粗略地估算将来数据仓库的数量级。数据仓库数量级的一个简单粗略估算方法是:设在概念模型中出现的表的个数为N,对于每个表i(0
α×((Si Ki)×Limax×T)~α×((Si Ki)×Limin×T)
其中,T是数据在数据仓库存在的周期。通常轻度综合的数据在数据仓库中存放的周期是5~10年。α是考虑由于数据索引和数据冗余而使得数据量增大的冗余因子,上式的含义是数据仓库数据量=(表的记录大小 主关键字大小)×记录的数量/单位时间×存储时间×冗余因子[3]。
一般来说,对于不同的数据量将采用不同的数据粒度策略,在数据量较小的环境下,采用单一的数据粒度,即直接存储细节数据并定期在细节数据基础上进行综合。由于数据仓库是进行DSS分析用的,绝大部分都是基于一定程度的综合数据查询的,因而在数据仓库中,采用多重粒度来分析数据是必不可少的[4]。
数据仓库临时表中用来存的记录随着时间的累积,数据量将不断增多,面对大规模的数据,要想从中得出用户需要的数据,必须建立一种有效地措施来方便、快捷地查询所需数据。在许多情况,建立简要记录数据量可以显著降低,按照数据的细节程度划分原则通过把许多记录聚集为一个记录,方便用户从大量数据查询和分析。当然根据相同的细节可以创建多个简要记录,按照不同的需求可以对数据仓库中的数据细节程度进行划分,比如按照不同时间记录进行划分、不同部门(地区)记录的划分、不同车型的划分、不同运输线路的划分等等。
在企业设备管理数据仓库表中,面对大量的数据信息,建立多重粒度可以按照企业中不同身份人员的操作需求不同,将数据划分为细节数据和综合数据(轻度总结、高度总结),划分的粒度的高低将会满足不同类型人的需求,以提高设备管理的系统性能和成本。
1.2 数据粒度划分模型算法
在数据仓库数据中,对于数据的划分提出一种新的基于粒度划分模型的算法。在论域U的一个划分π={Xi|1≤i≤m}对论域提供了按照某种属性(比如时间中的周或者月)的简单粒度观点,划分中的每个块Xi都是一个粒子,且满足:
每个Xi均为非空,且划分π={X1,X2,…,Xn}
对所有的i≠j,Xi∩Xj=ф
∪{Xi|1≤i≤m}=U
如果划分π1的所有块都包含在划分π2的块中,称划分π1是π2的细化,记作π1≤π2。细化关系是一个偏序,满足自反性、对称性和传递性,它定义了一个划分格∏(U)。∏(U)包含了论域的所有可能的粒度划分,空集提供了最粗的划分,全部的属性定义的划分是最细的划分,粒度之间的转换通过增加删除属性来实现。
进行粒度划分时,首先根据所在数据仓库中建立的表,建立数据索引来索取数据,针对不同数据采取分类索引,即通过所建表的行来组织,每个索引中的每一行总有一个索引项,用户在进行查询时,根据查询的内容来定位数据到底属于哪个粒度的“片区”,不同粒度级别的数据将用于不同类型的分析处理,在此区间进行分析处理,以提高查询效率。