在信息集成中,数据通常是面向主题进行组织的。主题是在较高层次上将企业信息系统中的数据进行归并的抽象,是对分析对象的数据的一个完整的、一致的描述,体现出分析对象的各项数据及其相互联系。根据分析的要求,概括各个分析领域的分析对象,就可以综合出各个主题,然后从各主题的角度去观察各个应用子系统中的有关信息,滤除主题流动的外在形式,抓住其静态内容,结合分析需求,逐步确立各主题应包含的基本内容即主题的模式和所涉及的属性、数据变量,从而确定了主题。
主题包括两方面的内容:
主题的固有信息是对该主题的属性的描述信息,如商品的颜色、类别、产地、类型等;主题的业务信息是对该主题在各类业务中的流动信息的描述,如商品的销售信息、商品的员工信息等。面向主题的数据组织是将原来的按应用进行组织的关系模式重新以面向主题的方式加以改造,是按照确定的主题及其模式,从面向应用的各子系统中抽取出相应的数据,形成关于该主题的全局一致的企业模式和信息集合,以便在此基础分析该主题的相关信息,从面向主题的角度观察原有的数据。在信息集成中,主题通常由一组关系表实现。
目前,有两种不同的数据建模方法可以满足信息集成数据建模的需要实体关系模型、维度建模、ERM建模由于ERM可用于理解和简化商业领域和复杂系统环境中的模糊数据关系,因此它是一种抽取工具。图1显示了一个简单的ERM。ERM建模方法可使用以下两个基本概念产生特定兴趣领域的数据模型:
实体
实体之间的关系
实体可定义为人、地点、事情,以及商业或组织的相关事件,例如“产品”,如图1所示。实体代表一类对象,它们是现实世界中可以按属性和特征进行观察和分类的一些事物。
关系描述模型中各实体之间的结构性交互和关联显示了实体间的相关性。例如,图1中,箭头从“产品”指向“订单”。箭头每一端的数字定义了关系的基数,本例中为1对n(或1对多)。
另外信息集成中的数据建模通常采用3NF模型。因为这类模型最初是为最小化数据冗余而设计的,该模型在值发生改变时,可使数据库中的更新数量达到最小,这对降低维护复杂度是非常有价值的。
维度建模
维度建模是一种将数据模型概念化和形象化为一组可用一般商业概念描述的度量的技术。在总结和重新整理数据以及显示数据视图以支持数据分析时,该技术特别有用。维度建模主要处理数字数据,比如值、计数、重量和出现次数。维度模型包含的基本概念有:
事实维度
度量(变量)
事实是相关数据项的集合,包含度量和环境数据。每个事实一般代表商业项、商业事物或可以在商业或商业过程分析中使用的事件。
维度是从特定角度描述事实数据的一组成员或单位。在图表中,维度通常是用轴来表示的。在维度模型中,事实表中的每个数据点都与多维中每个维度的一个成员相关联。维度决定了事实的环境背景。
度量是事实的数字属性,表示商业相对于维度的性能和行为。其实际成员称为变量。例如,度量为销售额、销售量、供应量等等。度量由维度的成员组合来决定,并定位到事实中。
维度建模的基本模型为如图2所示的星型模型。该模型通常有一个较大的中央表(事实表)和一组以放射状围绕在事实表周围的较小的表(维度表)。
确定建模技术
根据作者的经验,在选择建模技术时,采用混合的方法比采用单纯的方法更好。如果使用得当,这两种方法都有好处这两种数据建模技术看上去有很大的不同,但它们也有很多相似之处。维度建模可以使用相同的符号,比如实体、关系、属性和主关键字。而且,通常可以说事实就是一个实体,其主关键字为外关键字的组合,而外关键字又引用维度。
因此,可以说维度建模是ERM建模的一种特殊形式。但是,传统的ERM通过实体间复杂的关系来表现模型中的复杂关系,而维度模型主要面向分析优先使用哪种技术取决于目标数据库的目的,如果目标数据库用作单纯的业务处理,则优先使用ERM技术。在业务处理中,我们通常只是对非常特殊的任务(这些任务一般由ERM的实体来表示)请求少量数据,并且需要来自源系统的非常快的数据。
由于ERM中没有冗余数据或只有少量的冗余数据,因此可以从源系统或通过应用程序非常快地进行更新。能够快速更新的另一个原因是现有系统通常也是使用ERM设计的。因此在更新过程中的转换需要可能会非常小。
如果目标数据库更多地用作数据访问系统,那么就优先使用维度建模方法。在这种情况下,在更新数据的过程中,可进行许多转换,并可安排数据以满足数据访问应用程序的需要。虽然这也意味着更高的数据冗余,但也可使用于分析的复杂查询更快速地进行。
以下是某烟厂的信息集成建模实例,维度建模的数据组织方式如图3所示:
由图3可知,数据的组织方法是:
1.按照生产单位,把制丝部分的数据分成机台、工序、生产线、班组、车间、全厂。卷接包部分分成机台、系统、区域、班组、车间、全厂。
2.在每个生产单位的类别下,按照时间,分成批、班次、日、月、年。
3.每个时间段内分别以计划调度类、产量统计类、设备管理类、物耗管理类、烟叶单耗类、工艺质量类等类别来组织数据。
4.特定数据按照烟号、牌号进行细分。运用多维的方法分析数据,为逻辑模型设计时采用各种结构建立多维数据库提供了方便,比如采用关系型或雪花型等等。
posted on 2006-05-23 13:59
萌芽的叶子 阅读(166)
评论(0) 编辑 收藏 引用 所属分类:
BI