您好,欢迎来到钮旅网。
搜索
您的当前位置:首页零售业数据仓库的设计与实现

零售业数据仓库的设计与实现

来源:钮旅网


论文分类号 TP31 密级 内部 

 

 

   

作者姓名: 专 业: 导师姓名 及 职 称:

Retail

吉  林  大  学 

硕  士  学  位  论  文 

 

零售业数据仓库的设计与实现 

李春宜 计算机应用 周春光 教 授

The Design and Implement of Data Warehouse of

论文起止年月:2000年7月至2002年5月 

单位代码 10183 研究生学号 19906006 

内容提要

当前,各种企业、商业领域中的交易电子化的趋势为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。为了进行有效的决策,决策者不仅需要当前的数据,还需要过去的历史数据,才能完成各种复杂分析以支持决策,这就需要新型的数据存储和处理技术──数据仓库。本文阐述了零售业数据仓库DWR(Data Warehouse of Retail)的设计与实现过程。数据仓库为商务运作提供结构与工具,以便系统的组织、理解和使用数据进行战略决策。本文在简单介绍了数据仓库以及联机分析处理的相关概念之后详细说明了数据仓库系统DWR的数据库结构设计,给出了数据仓库数据库结构以及数据集模型;继而对数据仓库系统DWR的软件结构设计进行了说明,它在软件结构上分为数据转换子系统和联机分析处理子系统两部分。数据转换子系统是一个内容正确、在多个数据源间起决定作用的操作型数据源。它的特点是:数据最完整、最准确、最及时,结构最适合于数据仓库,并且与外部数据源最为接近。联机分析处理子系统又分为数据集建立模块和数据集查询分析模块。数据集建立模块采用一种“由顶向下”的方法建立立方体,通过对给定数据集模型的修改确定数据集结构;数据集查询分析模块使用ADO MD以及MDX表达式设计浏览器,来完成终端用户访问请求。DWR被应用于电子商务中的数据挖掘系统中,收到了良好的实践效果。

1

第三章

5.2

3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.1.1 3.1.2 3.1.3

5.1

4.1 4.2 4.3

3.2

3.1

2.1 2.2 2.3

1.1 1.2 1.3

5.1.1 5.1.2

4.3.1 4.3.2

目 录

第五章 数据仓库系统DWR的实现............................................27

第四章 DWR的软件结构设计.......................................................21

第二章 数据仓库与OLAP介绍.....................................................4

第一章 绪论......................................................................................1

联机分析处理子系统的实现............................................31

数据集(立方体).....................................................12 维度的设计.......................................................................13 事实的设计.......................................................................14 立方体存储设计................................................................15 OLAP立方体模型设计......................................................15 主题的确定.........................................................................8 粒度设计............................................................................9 数据模型.....................................................................9

数据转换子系统的实现....................................................27

DWR的总体设计..............................................................21 数据转换子系统的设计....................................................23 联机分析处理子系统的设计............................................25

联机分析处理子系统立方体结构设计............................12

数据仓库数据库的结构设计..............................................8

数据仓库基本概念..............................................................4 联机分析处理(OLAP)基本概念....................................5 数据仓库与OLAP...............................................................7

引言......................................................................................1 数据仓库与联机分析处理的发展及其现状......................1 本文所做工作......................................................................3

数据转换..........................................................................27 与数据仓库接口................................................................29

数据集建立模块.........................................................25 数据集查询分析模块..................................................26

DWR的数据库结构设计...............................................8

2

ABSTRACT.......................................................................................49

摘 要................................................................................................47

致 谢................................................................................................46

参考文献............................................................................................44

第七章 结束语..................................................................................42

第六章 应用实例——电子商务中的数据挖掘系统......................41

5.2.1 数据源..............................................................................31 5.2.2 数据集建立................................................................32 5.2.3 数据集查询分析.........................................................34 5.3 DWR的功能特点..............................................................36

3

1.1 引言

第一章 绪论 

1.2 数据仓库与联机分析处理的发展及其现状

在过去几十年中,数据库技术,特别是OLTP(联机事务处理),主要是事物驱动的、面向应用的。它的根本任务就是及时的、安全的将当前事务所产生的记录保存下来。这些用途准确地说只能归之为数

当前,各种企业、商业领域中的交易记录电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。开发出有效、实用的商务决策支持系统无疑将有广阔的市场前景和巨大的经济、社会效益。

在各种业务中,要想有竞争力,就必须能容易地获取信息。随着电子商务,特别是商业POS系统的广泛应用,数据库中可以收集到大量关于客户购买情况的数据,而这些数据在商业决策中的重要性越来越显著。为了进行有效的决策,决策信息不仅应该是全面的,还应该是完整的,即决策者不仅需要当前的数据,还需要过去的历史数据,才能完成各种复杂分析(如趋势预测和数据挖掘),以支持决策,这就需要新型的数据存储和处理技术──数据仓库。

若能迅速、轻松地访问到相应的信息,就能做出合适的决策。OLAP正日益成为数据仓库的前端访问数据技术,使用OLAP技术使企业能够以更有效的方式访问企业的关键数据。本文使用OLAP技术支持分析,实现丰富的报表功能,并为用户提供快速响应时间及高度的灵活性。

利用数据挖掘(Data Mining)技术通过对数据的分析,可以得到关于客户购买取向和兴趣的信息,例如,对市场行销来说,通过数据分析了解客户购买行为的一些特征,针对某一类商品或服务发现潜在的客户,对提高竞争力,促进销售是大有帮助的;可以帮助如何摆放货架上的商品(把顾客经常同时购买的商品放在一起),帮助如何规划市场(如何互相搭配进货),压缩库存和安排合理的进货时间。

第一章 绪论

1

第一章 绪论

据操作。

随着社会的发展,人们已不满足于简单的数据操作,人们进一步产生了使用现有数据的需求,也就是利用现有的数据,进行分析和推理,从而为决策提供依据。这样的需求导致了决策支持系统(DSS)的产生。人们最初在构建DSS时,自然而然地想到要建立在DB的基础上。因为,DB技术正日趋成熟,特别是关系数据库技术的飞速发展,使数据库的整体性能得到了迅速提高。随着企业数据量越来越大,查询越来越复杂,逐渐出现了许多难以克服的问题,服务于OLTP的数据库难以满足分析的需求,其中最严重的有以下几个:

1. 缺乏组织性

2. 效率极为低下, 数据难以转化为有用的信息 3. 其他困扰着基于传统DB DSS的问题 比如,DSS 分析时间较长,DB中只存储短期数据等等。

由于这些原因(以及很多其他原因),我们需要将操作型处理及数据同信息型或分析型处理及数据分离。人们开始尝试对DB中的原始数据进行再加工,形成一个综合的、面向分析的环境以支持决策的产生。由此,数据仓库的思想逐渐形成。W .H .Inmon是产业界公认的数据仓库概念的创始人。在他写的《建立数据仓库》一书中, 他给数据仓库作出的定义是:“面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理决策”。“数据仓库” 是计算机应用领域的新概念,它的提出解决了上述问题。“数据仓库”是一个面向信息管理的方法,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。

OLAP描述的是一种数据服务,这种服务的设计目的是保证分析员、经理和决策者对特定问题,通过快速、一致、交互式的实时数据访问和分析,获得有创意的发现。OLAP技术的基本特征是综合用户数据进行动态实时分析,提供给用户快速一致的查询响应速度,而不论数据库的大小和数据结构的复杂性。由于OLAP趋向采用“面向目标”的方式,揭开层层数据,直接提供针对管理问题的解决方案,因而OLAP更接近人类智能思维。

目前,各大数据库厂商均提出了自己的数据仓库全面解决方案 , 如 Microsoft、Oracle、Sybase、IBM、Informix等公司都推出了自己的风格各异、内容相似的数据仓库的产品。

Oracle的数据仓库解决方案在数据库集合、网关、查询和分析工具、第三方软件的专门技术等方面提供顶尖的技术服务。开发出了Oracle Warehouse Builder、Oracle8i数据库、Oracle Express等系列工具。

Microsoft提供了高级的管理数据仓库的产品,如:数据转换服务(DTS)、存储元数据的库房(Repository)、决策支持服务OLAP工具

2

1.3 本文所做工作

经过对零售业行业特点的分析,以及对特定用户的需求分析,本文进行了数据仓库系统Data Warehouse of Retail(DWR)的数据库结构以及数据仓库系统软件的设计与实现,并承担了电子商务中的数据挖掘系统中的数据仓库以及联机分析处理两个模块的设计与开发。

本文共分七章。第一章介绍数据仓库、联机分析处理的发展以及本文结构;第二章简单介绍了数据仓库与联机分析处理的基础知识;第三章详细介绍了数据仓库数据库的库结构以及联机分析处理子系统中的数据集模型结构,这是本系统的基础;第四章说明了本系统的软件结构设计,其中包括数据转换子系统和联机分析处理子系统的详细设计;第五章是本文的重点,这一章从模块功能、界面设计等详细说明了数据仓库系统DWR的实现。第六章介绍了电子商务中的数据挖掘系统,是DWR的一个应用实例。第七章结束语,对此数据仓库系统的性能、特点以及不足之处进行了总结,展望了数据仓库技术的发展前景。

第一章 绪论

等,能帮助开发数据仓库的框架,并提供了集成的技术( 数据访问、元数据、转换、最终用户查询等)。这些技术贯穿在创建、管理和使用数据仓库的整个过程中。Microsoft同时将各种数据仓库组件分布在Office、BackOffice和Visual Studio的产品中,SQL Server 2000 提供了许多开发数据仓库的新特色。像大型数据库支持、查询优化和复制等,增加了在数据仓库或数据中心工程中的可用性。异构数据库查询可以把不同OLE DB或ODBC数据源的数据连接起来。

其他公司的解决方案大体类似,只是开发工具在功能上有所不同。这些国外公司技术实力雄厚,从数据仓库模型设计、数据抽取工具、数据库管理系统到OLAP分析工具,各种开发工具齐全。但也存在不足之处,如本地化问题等。在国内,数据仓库的研究还属于起步阶段,一般利用第三方开发工具系统集成,完成面向国内客户的、某些特定领域的软件开发。

今天,业务取得成功的关键就是要掌握和有效地管理驱动业务的各个因素。如果能迅速、轻松地访问到相应的信息,就能做出合适的决策。OLAP的出现使企业能够以更有效的方式访问企业的关键数据。 OLAP正日益成为数据仓库的前端访问数据技术。OLAP最显著的特点是支持分析,有丰富的报表功能,并为用户提供快速响应时间及高度的灵活性。

3

2.1 数据仓库基本概念

第二章 数据仓库与OLAP介绍 

第二章 数据仓库与OLAP介绍

数据仓库为商务运作提供结构与工具,以便系统的组织、理解和使用数据进行战略决策。大量组织机构已经发现,在当今这个充满竞争和快速发展的世界,数据仓库是一个有价值的工具。

什么是数据仓库呢?按照W .H .Inmon这位数据仓库系统构造方面的领头设计师的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。这个简短而又全面的定义指出了数据仓库的主要特征。四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)相区别。让我们进一步看看这些关键特征。

??面向主题的(subject-oriented):数据仓库围绕一些主题,如

顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图。 ??集成的(integrated):通常,构造数据仓库时将多个异种数据

源,如关系数据库、一般文件和联机分析处理记录,集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。 ??时变的(time-variant):数据存储从历史的角度(例如过去

5-10年)提供信息。数据仓库中的关键结构,隐式或显式的包含时间元素。

??非易失的(nonvolatile):数据仓库总是物理的分离存放数据;

这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问:数据的初始化装入和数据访问。

概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被看作一种体系,通过将异种数据源中的数据集成在一起而构造,

4

2.2 联机分析处理(OLAP)基本概念

OLAP是针对特定问题的联机数据分析,是数据仓库上的分析展示工具。它建立在数据视图的基础上,可以提供给用户强大的统计、分析、报表处理功能及进行趋势预测能力。主要有两个特点:一是在线性(On Line),体现为对用户请求的快速响应和交互式操作;另一特点是分析(Multi-Dimension Analysis)。数据的视图使

第二章 数据仓库与OLAP介绍

支持结构化的和专门的查询、分析报告和决策制定。

数据仓库与传统的数据库系统不同,它不是为了满足日常操作性系统的应用要求,而是在操作型系统的大量数据之上,发展一种成功的策略和计划,为企业的决策支持所用,制定相关的市场策略和发展策略,发现企业历史数据后面的隐含规律,例如顾客的消费模式、消费预测、不同产品和服务的相互影响关系等。总之,数据仓库可用于管理,包括对过去的理解和对未来的规划。利用数据仓库,用户可以在适当了解商业环境的基础上来看待生成的信息和事实,接着就可以利用商业技巧及对该事实的经验来提取知识,最后利用所提取的知识做出判断或决策。 

数据仓库主要有三方面的作用: 

首先,数据仓库提供了企业级标准的报表和图表功能。数据仓库其中的数据来源于不同的多个事务处理系统,并对数据进行汇总归纳,因此,数据仓库的报表和图表反映的是整个企业的一致信息、是关于整个企业集成信息的报表和图表。这项功能是对传统的联机事务处理系统(0LTP)的扩充。

其次,数据仓库支持分析(Multi-Dimensional Analysis)。分析是通过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较。而维度则表示了对信息的不同理解角度,例如,时间和地理区域是经常采用的维度。应用分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用。

第三,数据仓库是数据挖掘(Data Mining)技术的关键基础。数据挖掘技术要在已有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况做出预测。由于数据仓库提供了关于整个企业全局的、一致的信息,因此,在数据仓库的基础上进行数据挖掘,就可以针对整个企业的状况和未来发展做出比较完整、合理、准确的分析和预测。

5

功能

用户

面向

特征

事务

日常操作

操作处理

办事员、DBA、数据库专业人员

分析

信息处理

长期信息需求、决策支持

知识工人(如经理、主管、分析员)

第二章 数据仓库与OLAP介绍

用户能从多角度、多侧面、多层次的查看包含在数据中的信息。

联机分析处理与联机事务处理是有区别的。联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记账等。另一方面,数据仓库系统在数据分析和决策方面为用户或“知识工人”提供服务。这种系统用不同的格式组织和提供数据,以便满足不同用户的形形色色需求。这种系统统称为联机分析处理(OLAP)系统。

OLTP与OLAP的主要区别概述如下:

??用户和系统的面向性:OLTP是面向顾客的,用于办事员、客

户和信息技术专业人员的事务和查询处理。OLAP是面向市场的,用于知识工人(包括经理、主观和分析人员)的数据分析。

??数据内容:OLTP系统管理当前数据。通常,这种数据太琐碎,

难以用于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。

??数据库设计:通常,OLTP系统采用实体-关系(ER)模型和

面向应用的数据库设计。而OLAP系统通常采用星型或雪花模型和面向主题的数据库设计。

??视图:OLTP系统主要关注一个企业或部门内部的当前数据,

而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP系统常常跨越数据库模式的多个版本。OLAP系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存放在多个存储介质上。 ??访问模式:OLTP系统的访问主要有短的原子事务组成。这种

系统需要并行控制和恢复机制。然而,对OLAP系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据而不是当前数据),尽管许多可能是复杂的查询。

OLTP和OLAP的其他区别包括数据库大小、操作的频繁程度、性能度量等。这些都概括在表1-1中。

特征 OLTP OLAP

6

度量

数千 读/写 数十个 数据进入 事务吞吐量 100MB到GB 详细,一般关系 高性能,高可靠性 原始的,高度详细 主关键字上索引/散列

优先

操作

关注

存取

视图

汇总

数据

用户数

DB规模

DB设计

访问记录数量

当前的,确保最新

基于E-R,面向应用

2.3 数据仓库与OLAP

数百

数百万

大量扫描

信息输出

大多为读

复杂查询

表1-1 OLTP系统和OLAP系统的比较 

100GB到TB

查询吞吐量,响应时间 高灵活性,端点用户自治

汇总的,统一的

历史的,跨时间维护

星型/雪花,面向主题

虽然数据仓库 和联机分析处理 (OLAP)这两个术语有时可互换使用,但它们却适用于通常称为决策支持系统或业务智能系统的不同组件。这些类型的系统的组件包括一些数据库和应用程序,用于为分析人员提供支持组织机构决策制定所需的工具。

数据仓库是一个数据库解决方案,包含那些通常表示某个组织机构业务历史的数据。通过分析这些历史数据,可以支持对分散的组织单元进行从策略计划到性能评估的多级业务决策。对数据仓库中的数据进行组织是为了支持分析,而不象在联机事务处理系统 (OLTP) 中那样是为处理实时事务。

OLAP 技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。OLAP 的数据模型和数据聚合技术可以组织并汇总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。当分析人员搜寻答案或试探可能性时,在得到对历史数据查询的回答后,经常需要进行进一步查询。OLAP 系统可以快速灵活地为分析人员提供实时支持。

第二章 数据仓库与OLAP介绍

7

3.1.1 主题的确定 

3.1 数据仓库数据库的结构设计

第三章 DWR的数据库结构设计 

数据仓库的数据是面向主题的。数据以数据模型中所定义的各个主题域为基础,与应用相。主题域又可分为表示企业中一系列基本实体的主题,以及表示实体间联系的主题。

正是由于数据仓库中的数据是面向主题的,从而决定了其设计由数据驱动。传统的操作型环境则是面向应用、由需求驱动的。考虑零售业的行业特点,我们分别以商品、员工以及顾客为主线,确定了如下主题。

??销售 ??库存 ??订货 ??顾客 ??员工

每个主题都对应一个事实表及一些维表,事实表中除了连接各个维表的键值信息之外,还有一些度量值。例如,销售事实表中有商品编号、时间编号、顾客编号等键值,还有分店销售额、分店销售量、分店成本等度量值;员工事实表中有员工编号、部门编号、职务编号等键值,还有月工资等度量值。

销售主题主要面向销售情况分析。通过该主题的确定,我们可以分析某一时间段某商品的销售情况,某分店的整体销售情况等等。订货主题使得我们能够从时间、商品、供应商等多个角度来查看订货产品的订货、交货、退货付款等情况。通过员工主题,我们可以查询某年某部门职员总人数、支付工资总数、平均年龄;也可以查询某时期年龄在20至30之间的经理人数等等,从而更深入的了解企业职员的现况。

第三章 DWR的数据库结构设计

8

3.1.2 粒度设计 

3.1.3 数据模型 

实体-关系数据模型广泛用于关系数据库设计。在那里,数据库的模式由实体的集合和它们之间的联系组成。这种数据模型适用于联机

第三章 DWR的数据库结构设计

粒度可以定义为数据仓库所维护的概念级别。然而,数据仓库通常包含有不同层次的粒度。在创建数据仓库或数据集市时,必须将数据的粒度定义为数据仓库定义的一部分。

粒度还可定义为数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越大。

在数据仓库中定义粒度时,应考虑下列因素: 要进行的分析类型

计划在数据仓库中进行的分析类型直接影响数据仓库的粒度。如果打算使用数据仓库对每天的信息进行分析,就不能将粒度的层次定义为周。如果定义的粒度层次过高,就不能在该数据仓库中进行更细致的操作。

可接受的集合的最低层次

数据仓库通常可在同一模式中采用多个层次的粒度。如当年的数据可采用天为粒度,而2-5年的数据可能以月或周为单位进行了汇总。这是以数据仓库中所需的最低集合级别为基础的。

能存储的数据量

数据仓库可用的磁盘空间量,也粒度的定义。但是,如果是基于硬件来设计数据仓库,就会在数据仓库中加入人为的,从而大大缩短了系统的寿命。目前,磁盘的价格非常便宜,所以应尽可能根据信息需求定义粒度的层次。

在DWR中,由于每天要处理的数据能达到几百兆字节,处理的数据量十分庞大,所以采取双重级别定义粒度。粒度的双重级别分为轻度综合级和“真实档案”细节数据级。细节数据级存放销售明细等具体信息;轻度综合级存放经过汇总的数据,主要用于决策分析。

通过在数据仓库的细节级上创建两种粒度级,可以一举两得。大部分决策处理是针对被压缩的、存取效率高的轻度综合级数据进行的,如果需要分析更低的细节级,可以到数据的真实档案层。这样即保证了大部分分析需求的响应时间,又保证了当用户查询细节时,能提供有效数据。

9

图3-1 面向销售的星型模型 

第三章 DWR的数据库结构设计

雪花模型(Snowflake Schema):雪花模型是星型模型的变种,当维度需要向外延伸至更详细的类别时,星型模型就被扩展成雪花模型。其中某些维表是规范化的,因而把数据进一步分解到附加的表中。结果,如图3-2所示,模型图形成类似雪花的形状。

事务处理。然而,数据仓库需要简明的、面向主题的模式,便于联机数据分析。下面介绍两种用于数据仓库的数据模型:星型模型和雪花模型。

星型模型(Star Schema):最常见的模型范例是星型模型,其中数据仓库包括:

1. 一个大的包含大批数据和不含冗余的中心表(事实表) 2. 一组小的附属表(维表)

这种模式图很象星星爆发,维表围绕中心表显示在射线上。 如图3-1所示,是某公司的数据立方体“销售”,它采用星型模型。该模型中包含一个中心事实表“销售”,它包含四个维的关键字和两个度量销售额、销售量。在星型模式中,每维只用一个表表示,每个表包含一组属性。这一可能造成某些冗余。例如,“地点”维表包含属性集{地点关键字,省、市、街道}。而长春、吉林都是吉林省的城市。“地点”维表中这些城市实体的属性“省”中会有冗余。

10

图3-2 面向销售的雪花模型 

雪花模型是对星型模型的进一步标准化,它的优点是最大限度的减少数据存储量以及把最小的标准化表联合在一起来改善性能。

雪花模型和星型模型的主要不同在于,雪花模型的维表可能是规范化形式,这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,维表可能非常大。然而,与巨大的事实表相比较,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。这样,系统的性能可能相对受到影响。因此,在数据仓库设计中,雪花模型不如星型模型流行。

DWR主要面对零售业用户,而且DWR有一个重要的功能就是支持数据挖掘。考虑零售业的行业及其操作型数据库的特点,再加上数据挖掘其它功能模块的需求,DWR中的数据结构将有针对性地采用合适的模型。例如,为了满足商品类别间关联规则发现,DWR在销售模型中使用了雪花模型,扩展了商品类别等等。

数据仓库数据库DBR的物理层实体关系图(ERD)清楚地展示了数据库中所有的对象,它描述了所有表格(实体)以及它们之间的关联方式。如图3-3是涉及销售部分的ERD,是整体ERD的一部分。

第三章 DWR的数据库结构设计

11

3.2.1 数据集(立方体) 

图3-3 ERD—销售部分

3.2 联机分析处理子系统立方体结构设计

第三章 DWR的数据库结构设计

数据仓库和OLAP工具基于数据模型。该模型将数据看作数据立方体(Data Cube)形式。数据立方体允许以形势对数据建模和观察。它由维和事实定义。

一般的,维是关于一个组织的想要记录的透视或实体。例如,某公司要创建一个数据仓库“销售”,记录商店的销售情况,涉及维时间、商品、分店、地点。这些维使得商店能够记录商品的月销售量,销售商品的分店和地点。每一个维都有一个表与之相关联。该表称为维表,它进一步描述维。例如,商品的维表可以包含商品名称、类型、型号等。

通常,数据模型围绕中心主题(例如销售)组织。该主题用事实表表示。事实是数值度量的,我们可以根据它们分析维之间的关系。例如,销售数据仓库的事实包括销售额、销售量和纯利润。事实表包括事实的名称或度量,以及每个相关维表的关键字。

12

3.2.2 维度的设计 

图3-4 立方体 

维度一般是有层次的,但不必一定有层次。OLAP领域中的维度与星型模型中的维度不同。星型模型中的维度的属性一般比OLAP维度多得多。如,在星型模型中的顾客维度如下:

 

顾客关键字  

姓名  

性别  

出生年月  

城市  

省  

职业  

月收入  

 

通常意义的立方体都是3-D几何结构,在数据仓库中,数据立方体是n-D的。

如图3-4,立方体的维由产品维、地区维、时间维构成,度量是销售额,立方体中的每个单元都存储了销售额度量信息,给出产品、时间和地区坐标,就可以确定任何销售额。

图3-5 星型模型中的维度 

第三章 DWR的数据库结构设计

从中可以看出,顾客的所有属性都包含在一个维度中。另一方面,在OLAP领域中,顾客的属性常常在多个维度中表示。通常将顾客的属性分为两个单独的维度,顾客维度以及城市维度。

13

姓名 性别 3.2.3 事实的设计 

顾顾客关键字 图3-6 OLAP中的维度 城市 省 地点关键字 地OLAP系统应设计成易于用户访问和操纵数据的形式,有一些特定的维度一般都是报表所需的维度。如:

??时间维度 

该维度在与数据维度一起使用时,能很容易地报告不同时间之间的比较。 ??字母表维度 

该模式很易于访问数据。如果有1000个客户,但是没有客户层,可使用的技术是将客户按字母排列,以帮助用户查找客户。 ??范围维度 

范围维度对于分离某个范围的数据非常有效。如,定义价格范围维度,就可以很方便的显示购买了价格在0-10元范围内的产品的客户列表。 

在设计维度时必须记住,尽力维度个数。维度个数太多,将使分析过于复杂。维度的父子比率应为约1:10,即任何父层都不要有超过10个子层,这会使浏览更简单。

在立方体设计一节中,我们将详细介绍本系统中的维度。

第三章 DWR的数据库结构设计

事实是商务的度量,是如收益、成本、总利润、总利润率、数量、和价格。事实通常是可相加的,或为半可相加的,并直接与模型中的维度相关。事实如何汇总是非常重要的。

如收入事实是可相加的,就可以按图3-7中的方式汇总,每个层可汇总到上一层。

有一些事实是不能充分相加的,如利润率,若按收入的方式相加是不正确的。如将这些值相加,企业的总利润率可能达到百分之几千,这个结果是没有意义的;然而,对它进行平均,可得到企业的平均利润率。

事实是使 OLAP有意义的东西,是用户关心的。理解商务中必要的关键度量可建立一个完善而相关的系统。设计OLAP中的事实,必

14

3.2.4 立方体存储设计 

3.2.5 OLAP立方体模型设计 

须面向用户,因为事实为用户提供了解信息、商务的度量。

图3-7 事实的汇总 

本文设计了一些零售业用的基本立方体模型,具有通用性。 

第三章 DWR的数据库结构设计

根据存储结构的不同,OLAP又分为ROLAP、MOLAP、HOLAP。现在考虑存储设计。

MOLAP存储模式意味着将所有的详细立方体数据保存在数据库中。这意味着要将数据源中事实表、维度表里的数据,写入优化的数据库中。ROLAP 存储模式意味着将所有的详细立方体数据和统计数据保存在关系数据库中。这意味着要所有在事实表、维表中的详细立方体数据都被存在关系数据库中,没有将数据迁移出来。这种存储模式不能提供像MOLAP那样的性能,但是它具有良好的可扩展能力,允许公司充分利用现有的存储能力。HOLAP是混合物。它是指将所有详细信息保存在关系数据库中,但将统计信息保存在数据库中。这种模式体现了前两种模式的优点:MOLAP的性能与ROLAP的可扩展性。可根据需求的特点以及存储结构的不同特点来决定采用何种物理结构。

立方体真正的建立过程是CPU密集的操作。必须从事实表格中检索核心信息,计算并存储集合。如选择ROLAP,MS OLAP需要在关系型数据库中建立汇总表格以存储这些信息;如果选择MOLAP,MS OLAP需要在数据库中存储该事实表。

15

年 季度 月 日 

时间 商品 

 

分店 

顾客 

大类 小类 细类 部门 小组 品牌 产品名 下面就用维度映射表和事实映射表来描述本文设计的OLAP立方体的基本模型。

1.销售明细立方体模型 

维度映射表: 

介绍本文设计的OLAP立方体模型之前,首先介绍维度映射表以及事实映射表。因为立方体的主要构成因素就是维度和事实。

维度映射表包括了立方体的所有维度以及每个维度中的层。如图3-8所示。  

时间维度  

维度 年 维度的层次  

季度  

月  

 

图3-8 维度映射表例 

事实映射表包括OLAP立方体事实(度量)和如何计算及汇总的细节。如图3-9所示。  

度量 汇总  

分店销售额 总计 表头  

分店成本 总计  

销售量 总计  

分店净销售额 总计  

国家 客户类型编号 范围 省 客户编号 市 区 分店名 图3-9事实映射表例 

价格范围 销售人员 

促销方式 销售人员类型 促销方式 销售人员号 

第三章 DWR的数据库结构设计

16

事实映射表 

时间 年 季度 月 周 

事实

销售金额累计

商品 大类 小类 部门 小组 品牌 产品名 

销售数量累计

领用金额累计

领用数量累计

捐赠金额累计

捐赠数量累计

报损金额累计

报损数量累计

入库金额累计

入库数量累计

盘点溢缺金额累计

盘点溢缺数量累计

库位 省 市 分店 库位 

事实映射表  事实 汇总 计算  销售额 总计   价格 平均   成本 总计   总利润(GM) 

总计 销售额-成本 

 总利润率(GM%) 再计算 

 

 数量 

总计  

 本立方体可完成的功能为:

从时间、商品、顾客、价格范围、分店、销售人员多个角度来查看销售产品的销售额、利润等情况。如可以查询某月某种产品的销售量,销售总额;也可以查询某月某销售人员的销售总额等等。 

2.库存立方体模型 维度映射表:

总计 汇总

计算

总计

总计

总计

总计

总计

总计

总计

总计

总计

总计

总计

第三章 DWR的数据库结构设计

17

    年 季度 月 周 

 库存金额 库存数量 时间 商品 变价增值累计 其他金额累计

大类 小类 部门 小组 品牌 产品名 

分店 

事实映射表  事实  订货数量  订货金额  交货数量  交货金额  退货数量  退货金额  订货次数  交货延时  平均交货延时 

未付款额 

已付款额 应付款额 

少货数量 

其他数量累计

含税销售成本累计

不含税销售成本累计

本立方体可完成的功能为:

分析一定时间内不同商品在不同仓库内的入库、库存、销售以及领用、销售、报损、盘点溢缺、捐赠等情况,用来掌握商品的流动速度、使用方向等。

3. 订货立方体模型 维度映射表: 

国家 供应商类型编号 付款类型号 订货人员号 省 供应商编号 市 区 分店名 

总计 

总计 总计 

总计 

总计 平均 

总计 

总计 总计 

总计 

总计 总计 

总计 

汇总 

供应商 

总计

总计

总计

总计

总计

总计

再计算

  

 

  

 

  

 

计算 

定货数-交货数 

付款方式 

应付款额-已付款额 

 

交货延时/订货次数 

订货人员 

第三章 DWR的数据库结构设计

18

时间 年 月  时间 年 月 

 

事实 人员数 

事实映射表  事实  顾客数  消费金额  消费次数  折扣金额  帐户余额 

平均年龄 工资支付 平均工资 

平均 总计 平均 汇总 总计 

事实映射表 

总计 总计 

总计 总计 

汇总 总计 

  

  

计算  

工作地点 部门 级别 职务 性别 年龄范围 工资范围 省 部门 级别 职务 性别 年龄 工资范围 市 小组 分店名 

  

工资支付/人员数 

本立方体可完成的功能为:

从时间、工作地点、部门、级别、职务、性别、年龄范围、工资范围多个角度来查看职员的年龄、工资、人数等情况。如可以查询某年某部门职员总人数、支付工资总数、平均年龄;也可以查询某时期年龄在20至30之间的经理人数等等,从而更深入的了解企业职员的现状。

5.顾客立方体模型 维度映射表: 

计算  

第三章 DWR的数据库结构设计

本立方体可完成的功能为: 

从时间、商品、供应商、分店、订货人员、付款方式多个角度来查看订货产品的订货、交货、退货、订货次数、交货延时、付款等情况。如可以查询某月某种产品的订货量,订货总额;也可以查询某月向某供应商的订货总额等等。

4.职员管理立方体模型 维度映射表: 

家庭地点 顾客类型 收入 教育程度 性别 年龄 婚姻 国家 顾客类型 收入范围 教育程度 性别 年龄范围 婚姻状况 省  市 区 

19

本立方体可完成的功能为:

从时间、家庭地点、顾客类型、收入、教育程度、性别、年龄、婚姻多个角度来查看顾客的消费、人数、帐户余额等情况。如:可以查询某月持金卡、年龄在30到50之间顾客总人数;也可以查询某时期某一地区女性顾客消费金额、消费次数等等,从而更深入的了解顾客的消费情况,面向不同特征的顾客提供更好的促销方法。

建立这些立方体模型的总体目标是使决策者更好的从多角度了解商业情况,从而了解企业运行情况,人员工作情况等,有助于尽早发现问题,解决问题,加强管理。

第三章 DWR的数据库结构设计

20

4.1 DWR的总体设计

第四章 DWR的软件结构设计 

第四章 DWR的软件结构设计

数据仓库的设计是一个商务分析的框架。首先,数据仓库可以提供竞争优势。通过提供相关信息,据此测量性能并做出重要调整,以帮助战胜其他竞争对手。其次,数据仓库可以加强生产能力,因为它能够快速有效的搜集准确描述组织机构的信息。再次,数据仓库促进了与顾客的联系,因为它跨越所有商务门类、所有部门、所有市场,提供了顾客和商品的一致视图。最后,通过一致、可靠的方式长期跟踪趋势、式样、异常,数据仓库可以降低成本。

关于数据仓库的设计,四种不同的视图必须考虑:自顶向下视图、数据源视图、数据仓库视图和查询分析视图。 

自顶向下视图使得我们可以选择数据仓库所需的相关信息。这些信息能够满足当前和未来的商务需求。

数据源视图揭示被操作数据库捕获、存储和管理的信息。这些信息可能以不同的详细程度和精度建档,存放在由个别数据源表到集成的数据源表中。

数据仓库视图包括事实表和维表。他们提供存放在数据仓库中内部的信息,包括预先计算的综合与计数,以及关于源、日期和原时间等的信息。

商务分析视图是从最终用户的角度透视数据仓库中的数据。 数据仓库的设计是个反复的过程,需要仔细的规划和分析。而且数据仓库的设计决不同于操作型数据库的设计,数据仓库的最终目标是对大量数据进行快速访问。数据仓库设计时应遵循以下原则:

??数据仓库的实际必须易于理解和操作:

建立数据仓库是将商业用户直接与他们所需的公司数据连在一起,以便进行消息灵通的、战略性的、有效的、详细的商业决策的过程。因为最终用户将直接查询数据仓库,所以这个设计必须易于理解和浏览。

??充分理解数据源数据

为保证载入数据仓库的数据是干净、有效的,必须充分理解数据源中的数据,从而实现对数据的抽取、集成、转换、聚合和复制,

21

第四章 DWR的软件结构设计

并存储到数据仓库中。 ??与用户团体密切合作

设计数据仓库对需求的理解是必不可少的。用户团体积极参与数据仓库的设计,可以完成许多任务,如:提供用户的需求、接受对整个系统的测试、在数据仓库发布为产品后,提出要加强的方面。

??采用数据集合来进行设计

由于数据仓库是用于决策支持的,快速查询大量数据是它的目标。传统的数据模型不能满足数据仓库的需要。星型模型可为数据仓库提供优越的数据检索能力,并有助于加速决策支持系统的部署,能更好、更直接的满足最终用户的需求。 ??选择合适级别的粒度

在数据仓库环境中粒度之所以是主要设计问题,是因为它深深的影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。选择合适的粒度对整个数据仓库的设计至关重要。

数据仓库的系统设计是一个动态的、反馈和循环的过程。一方面数据仓库的数据内容、结构、粒度、分割以及其它物理设计根据用户所返回的信息不断地调整和完善,提高系统的效率和性能。另一方面,通过不断地理解需求,使得最终用户能做出更准确、更有用的决策分析。

数据仓库系统DWR采用三层结构,如图4-1所示。

⑴ 底层是仓库数据库服务器,它几乎总是一个关系数据库系统。它使用称作网间连接程序的应用程序,由操作数据库和外部数据源提取数据。网间连接程序由下面的DBMS支持,允许客户程序产生SQL代码,在服务器上执行。

⑵ 中间层是OLAP服务器

⑶ 顶层是客户,它包括查询和报告工具、分析工具和/或数据挖掘工具。

22

4.2 数据转换子系统的设计

图4-1 三层数据仓库结构 

第四章 DWR的软件结构设计

数据仓库中的数据来源于多个已有的操作型系统。一方面,各个系统的数据都是面向应用的,不能完整地描述企业中的主题域;另一方面,多个数据源的数据之间存在着许多不一致,如命名、结构、单位不一致等,甚至数据的内容也可能不一致。所以必须在已有系统中定义数据转换系统。数据转换系统是一个内容正确、在多个数据源间起决定作用的操作型数据源。它的特点是:数据最完整、最准确、最及时,结构最适合于数据仓库,并且与外部数据源最为接近。

DWR的数据转换系统采用SQL Server的数据转换服务(DTS)。DTS在进行数据输入和输出时,具有抽取、转换和装载三个主要特点。利用这三个特点,可以将数据从一个数据系统传送到另一个数据系统,

23

图4-2 将数据转换到数据仓库 

我们已经在操作型环境中定义了数据转换系统,接下来的工作是如何建立和设计数据转换系统与数据仓库之间的接口。接口与抽取程序不同,抽取程序只是将两种数据源之间的数据进行转换。在数据转换系统到数据仓库的转换过程中,面向应用的多个数据源的混乱状态经过集成,生成了含有完整、准确、统一描述信息的主题域,并得到了一系列的历史数据和导出数据。

在该过程中,还有一个如何高效率地对操作型环境中的数据进行扫描以便追加的问题。DWR采取以下方法:对操作型数据加时标,创建系统日志;按一定时间期限(给出建议期限,可由用户确定)对数据仓库进行增量更新,追加新数据。

同时对其进行整理和转换。

??抽取:可以利用抽取功能识别源数据系统中的数据元素,并

对元数据(系统结构的数据)进行观察。通过抽取,可以得到源数据系统的信息,并选取所需的信息进行转换。

??转换:转换是将源系统的数据转换到目的数据系统。转换可

以包括修改数据。例如,有三个数据源可以将Male表示为“Male”、“M”和“0”。这些可被转换成一个值“Male”。由于数据仓库不需要OLTP系统中的所有信息,因此,可以对数据进行缩减。转换包括确认数据的正确性,删除不正确的数据,以有效的格式转换正确数据。

??装载:装载涉及将整理和修改过的最终数据放入目标数据系

统。利用DTS可以将数据放入正确的数据系统,并将这些数据调整到系统中的适宜位置。

第四章 DWR的软件结构设计

24

4.3.1 数据集建立模块 

4.3 联机分析处理子系统的设计

图4-3 DWR中立方体建立流程图 

第四章 DWR的软件结构设计

在SQL Server 2000的Analysis Services中,数据集的建立采用一种“由底向上”的方法,即确定事实表、度量;建立维度、维度层次;确定计算成员……这种方法对数据仓库主业人员比较适用。

DWR所面向的用户主要是零售业的经营管理者,这些用户一般对数据仓库技术知识只是简单了解甚至不了解,以上的“由底向上”方法对这些用户来讲是不适用的。

针对以上问题,DWR采用一种“由顶向下”的方法建立立方体。首先,根据用户选定的分析主题,给出立方体建议模型(参见3.2.5节);若用户认为模型有必要修改,则对模型进行修改,包括维度、度量等的删除和修改;通过与用户的交互,生成立方体定义脚本。

3.2.5节给出的立方体建议模型,是在进行了大量的零售业行业分析以及与多家典型用户进行反复交流之后得出的,具有一定的通用性和普遍性。下面是DWR中的立方体建立流程图。

25

4.3.2 数据集查询分析模块 

通过以上立方体建立模块完成立方体的创建,为OLAP的查询分析准备了数据。终端用户就可以使用这些数据得到它们想要的信息。终端用户可以通过下列方法访问OLAP数据: 

??CUBE BROWSER 

Microsoft OLAP Manager自带的立方体浏览器,使用方便。 ??PIVOT TABLE SERVICE(Microsoft Office 2000) 

如Microsoft Excel电子表格,也可以作为访问OLAP数据的前台工具。 

??ADO MD 

使用ADO MD开发图形界面的访问数据库的应用程序。 ??MDX 

表达式,是ADO MD用于客户端访问的组成部分。 ??第三方OLAP软件产品 如Cognos 的PowerPlay等。 

本文主要使用ADO MD以及MDX表达式设计浏览器,来完成终端用户访问请求。本文的浏览器以控件形式进行设计,具有通用性;它能够以表格以及图表形式多角度展示立方体数据,具有友好的用户界面;它通过对维度按钮的托拽实现查询分析,有操作简便性。本文将在第五章详细介绍该控件。

第四章 DWR的软件结构设计

26

5.1.1 数据转换 

5.1 数据转换子系统的实现

第五章  数据仓库系统DWR的实现 

第五章 数据仓库系统DWR的实现

数据仓库及对象创建完成之后,就要将数据移入数据仓库。这时要使用数据转换服务(DTS)来加载数据。DTS在进行数据输入和输出时,具有抽取、转换和装载三个主要特点。利用这三个特点,可以将数据从一个数据系统传送到另一个数据系统,同时对其进行整理和转换。

DTS 和OLE DB/ODBC

DTS框架牢固地建立在Microsoft OLE DB 之上。Microsoft OLE DB是一组API,它提供了不同类型数据源的公用接口。通过与OLE DB的联合,DTS 可帮助你与任何数据源通信,只需此数据源带有OLE DB、 ODBC驱动程序。SQL Server 2000 提供了支持如下数据源的OLE DB :SQL Server,Oracle,Excel,Access,ASCII文本文件ODBC数据源,大多数数据源ODBC 驱动程序。通过将OLE DB 和ODBC集成,Microsoft确立了DTS是跨组织导入或导出数据的开放工具。

DTS 框架

1. Import和Export Wizards,允许你迅速方便地建立简单的表导

入、导出或转换。

2. DTS Designer 允许你建立更高级的转换,该转换能结合多表

和复杂的工作流操作。

3. DTS COM 对象是可扩展部件,可集成DTS功能和外部程序

或脚本。 DTS包

DTS包是包含数据从一个数据系统转换到另一个数据系统所需所有步骤的DTS对象。该包包含在转换数据时需要完成的一组任务。可以创建、存储、编辑、删除、和执行DTS软件包。在操作系统中,包可作为文件保存在Microsoft Repository或服务器MSDB数据库享。

27

第五章 数据仓库系统DWR的实现

可在Enterprise Manager 中执行以下DTS 包操作: ??使用DTS Wizard创建新包 

??使用DTS Designer通过大纲来创建新包 

??浏览,编辑,执行存储在本地服务器或Repository 中的包 ??将存储在文件系统中的包加载至DTS Designer中 每个包都包含多个步骤。 连接

连接保存有关源和目的数据存储的信息,这些数据存储既可以是实际数据库系统也可以是普通文件。连接对象包括安全性确认,文件位置和数据格式等数据。在转换操作期间,通常将连接共享或将其放入缓冲池,以提高效率。

步骤

步骤提供包的简化工作流功能。他们指出任务执行的顺序,并将实际任务与步骤之间的流程控制分离。步骤提供如下特征:

??它们基于前一步骤的结果连续有条件地执行。 ??当加载多重表时,他们可并行执行。 

??它们可提供单个优先权,提示那一步得到更多的处理能力。 数据进入数据仓库的步骤 

数据仓库需要不断周期性地加载来自一个或多个不同数据源的数据。通常情况下,总是希望加载的数据有效,准确,而且不会花费大量的时间。它即可能和拷贝信息一样简单,也可能包括复杂的确认。数据进入数据仓库,通常包括以下步骤:

1.直接与外部数据源相连接。

用户必须通知DTS目标系统需要何种类型的OLE-DB提供者。DTS Wizard 提供了一个具有合适选项的下拉式菜单。如图5-1:

2.选择和分析出想得到的信息。

3.执行所需的转换,将源字段映射为目标字段,填充缺少的值,集合数据,等。

4.将数据加载至目标表中 5.包操作

使用DTS Designer 创建自定义包,完成以下工作: ??添加连接 ??转换数据 

??添加更多的转换 ??添加步骤 6.保存包

可以将包保存在三个地方:知识库(repository)、文件和SQL Server

28

5.1.2 与数据仓库接口 

数据库。

7.执行包

包有用的特点之一是,它们可以在特定的时间被定时运行。通过这一特点可以自动运行包,将工作定时到适宜的时间执行。

图5-1 DTS数据源选择 

数据转换子系统与数据仓库的接口主要有两个功能:一是对操作型数据库加时标,并创建数据转换日志,以便对数据仓库数据库中数据的追加;二是当数据仓库数据库中数据进行增量更新之后,对联机

第五章 数据仓库系统DWR的实现

DTS的强大功能,很容易地在不同的数据源之间移动信息。DTS 包是一个自我包含的元素集合,可以被剪辑、调度和共享。DTS Wizard 能迅速地开发出简单的引入和导出数据的包。DTS Designer 则是一个功能强大的工作环境,能用于复杂的面向工作流的转换应用程序。此外,基于COM 的接口,允许创建高度自定义的,从其他开发环境中生成的引入、导出和转换程序。DTS,可以访问分布于各种格式存储中的数据。DTS 构筑于强大的OLE DB 基础之上,这就使得它能访问各种不同的数据库系统。利用这些新的访问功能,就能用方便、统一的方法,迅速地为数据仓库收集信息。

29

图5-2 增量更新数据集 

针对本系统的特点,数据仓库数据库主要是数据的追加操作,没有数据的修改和数据库结构的修改,因此,本系统中数据集的处

第五章 数据仓库系统DWR的实现

分析处理子系统中的数据集进行刷新。

更新数据仓库数据库

DWR中对数据仓库数据库中数据的更新主要采用追加数据的方法。在数据仓库的建立过程中,数据转换的方法、步骤都存储在DTS包中,这样,在追加数据时,由于是对相同的数据源、目的进行操作,只要修改原有的转换过程,增加时标就可以了。

更新数据集

为了保证联机分析处理的及时性、准确性,只要数据仓库数据库发生了变化,数据集就要及时的做出相应的改变。在Analysis Services中,对数据集的处理主要有以下三种方式:

??增量更新

将新数据添加到数据集中并更新聚合。此方法不处理对数据集结构(度量值、维度等)或对其现有源数据的更改。

??刷新数据

清除并重新加载数据集数据,并重新计算它的聚合。在数据集源数据已更改、但其结构未更改的情况下使用此方法。

??完整处理

在当前定义基础上完全重新构造数据集,然后重新计算它的数据。 

30

5.2.1 数据源 

理主要采用增量更新方式。

5.2 联机分析处理子系统的实现

在DWR中,数据源选择第三章设计的数据仓库数据库。联机分析处理中立方体的建立是在数据仓库数据库的基础之上的。在DWR中,数据仓库数据库是专为零售业设计的,联机分析处理子系统中设计的数据集模型也是基于数据仓库数据库设计的,故在本系统中,数据源的选择确定为数据仓库数据库。 

由于本系统具有一定的专用性,故在联机分析处理子系统中数据源的选择是固定的,即用户不能随意更改的。如果更改的话,第三章所设计的数据集模型将不可用。 

图5-2 数据源的选择 

 

第五章 数据仓库系统DWR的实现

31

5.2.2 数据集建立 

第五章 数据仓库系统DWR的实现

在4.3.1节我们介绍了联机分析处理子系统中数据集建立的流程,为了更好的实现与用户的交互,本文采用向导的形式实现了数据集的建立。

向导的使用,把数据集建立这样一个完整的任务分成了许多便于管理的步骤。有了向导,用户不必再手工去完成所有这些任务了,向导收集了数据集建立所需的所有信息。

该向导共分三部分,下面详细介绍。 1.开始部分

此部分包括向导的“欢迎”页面,以及数据集建立的第一步:主题的确定。向导给出了3.2.5节设计的所有数据集模型。 2.模型修改部分

每个给定主题都对应一个数据集模型。用户选择主题后,向导给出对应的模型,用户可以对模型修改,主要是维度和度量的修改。修改操作包括删除和添加。维度修改:首先用户选择修改操作。如果选择删除,向导将给出模型中现有维度集合,用户选择将要删除的维度,完成删除操作;如果选择添加,向导将给出数据仓库数据库中的所有表,用户将首先选择出维度表,选择表中的字段确定维度层次,完成维度的添加。度量修改:同样,用户首先要选择操作。如果选择删除,向导将给出模型中现有度量集合,用户选择将要删除的度量,完成删除操作;如果选择添加,向导将给出该模型事实数据表的所有数字列,用户将选择适当的列,完成维度的添加。 3.结束部分

模型修改结束后,就可以建立逻辑立方体(立方体的结构)了。向导进入“创建立方体”页面。立方体的创建结束后,接着就是“处理立方体”页面,此页面的主要功能是向立方体结构中添加数据。

以下是向导的部分页面:

32

图5-4 数据集向导—删除维度 

图5-3 数据集向导—添加度量 

第五章 数据仓库系统DWR的实现

33

5.2.3 数据集查询分析 

第五章 数据仓库系统DWR的实现

OLAP是针对特定问题的联机数据分析,是数据仓库上的分析展示工具。它建立在数据视图的基础上,可以提供给用户强大的统计、分析、报表处理功能及进行趋势预测能力。而数据集的查询分析工具是OLAP技术中的关键。

本文主要使用ADO MD以及MDX表达式设计浏览器CubeGrid。本文设计了三个动态连接库,分别是用来管理数据集连接、数据集数据和数据集元数据。通过这三个动态连接库,CubeGrid可以连接OLAP服务器,读取数据集数据,管理数据集元数据。CubeGrid可以完成上卷、切片等等OLAP操作。 

??上卷(roll-up):上卷操作通过一个维的层次向上攀升,在数

据立方体上进行聚集。在CubeGrid中,可以通过对维度按钮用鼠标左键的点击来进行数据集上的上卷操作。 ??下钻(drill-down):下钻是上卷的逆操作,它由不太详细的

数据到更详细的数据。下钻可以通过沿维度的层次向下或引入新的维来实现。在CubeGrid中,有两种方式实现上卷操作。一种是用鼠标左键点击维度按钮;另一种是托拽维度按钮到数据网格中。

??切片或切块:切片(slice)操作在给定立方体的一个维上进

行操作,切块(dice)操作通过对两个或多个维度执行选择。在CubeGrid中,对维度层次中成员值的选择通过是这样实现的:按住Shift键,鼠标左键或是右键点击维度按钮,进行维度当前层次的成员值的选择。 ??转轴(pivot):转轴是一种目视操作,它转动数据的视角,

提供数据的替代表示。在CubeGrid中,通过交换所选行维度和所选列维度来转换视角。

在上述的操作过程中生成MDX查询表达式,对数据集进行查询,取出数据子集,显示到数据网格中。下图是数据集浏览器CubeGrid的界面图。左侧是维度区,其中每个按钮代表一个维度,按钮标题是维度的当前层次。按钮右侧是该维度当前层次的成员值。中间部分是对维度操作的纪录,包括所选行维度、所选列维度和所选度量等等。右侧是服务器和数据库信息。右下角的数据网格是数据集数据的显示区。

34

图5-5 数据集浏览器CubeGrid 

在经过了一系列OLAP操作之后,数据网格中选定了一个数据子集,在CubeGrid中,该子集能够以图表形势显示。如图5-6所示。该图表显示的是数据网格中取到的数据子集。在图表中无法进行上卷、切片等OLAP操作,要想变换数据,只能是回到CubeGrid,重新进行数据的选择。这点还有待以后改进。 

可以以二维、三维等多种图表形势显示数据子集。通过菜单中的选项,可以变换图表形势。在三维形势下,用户还可以通过鼠标与键盘的配合来旋转图表,选择最适合的观察角度。图5-6中,虚线所示位置就是将要转换的角度。 

本文中的数据集浏览器CubeGrid以ActiveX控件的形势进行设计,具有一定的可移植性和通用性。 

第五章 数据仓库系统DWR的实现

35

5.3 DWR的功能特点

图5-6 数据集图表 

DWR的设计充分考虑了零售业的行业特点,是在进行了充分的需求分析之后,合理的设计出来的。它不仅能够满足零售业客户的基本分析需求,还支持更高层次的客户应用程序——数据挖掘。

在数据库结构上,本文主要有以下两个特点: 1. 支持数据挖掘 2. 支持OLAP

其中为了支持数据挖掘需要创建一些固定的数据对象,为了支持OLAP而创建了一些典型的、被用户广泛使用的数据对象。 

支持数据挖掘

为了支持数据挖掘,创建了以下数据对象。 ??支持促销、关联规则

面向促销、关联规则的数据对象如下图所示。

第五章 数据仓库系统DWR的实现

36

 

图5-7 面向促销、关联规则 

图5-8 面向库存管理 

第五章 数据仓库系统DWR的实现

采用数据挖掘方法,通过对商品销售明细表的查询、分析,可以发现相关规则和有效的促销手段。关联规则,主要用于发现事物间的内在联系,它为用户提供了以往不知的知识,给出相关商品间的关联程度,为用户决策提供支持,如:发现买大多数牛奶的顾客会买面包;促销手段的好坏直接影响商品的销售和企业的业绩,如:发现“海报宣传”这种促销手段效果不明显等等。

??支持库存管理

面向库存管理的数据对象如下图所示。

37

图5-9 面向市场行销预测 

采用数据挖掘方法,通过对商品销售日结表的查询、分析,可以实现对不同维度的商品的销量预测、商品的销售额的预测。如:通过查询某分店几年来某种商品的销售量结合其他信息来预测下一年这种商品的销售量。其中商品的销量预测可以按照商品的大类进行,也可以按照明细商品来进行预测。商品销量的预测可以获得未来商品的销售趋势,并且能够为库存优化提供有力的数据来源。商品销售额的预测能够使商家对未来时期的经济情况有大致的了解。

支持OLAP查询分析

使用OLAP技术除了可以分析面向数据挖掘的数据对象,包括了商品销售量、商品销售额、库存管理等等以外,还支持以下几个零售业中OLAP的典型模块: 

??销售分析

设计了销售明细立方体模型,通过该模型,可以从时间、商品、

每个企业都必须储存货物以保证它的业务顺利进行和有效的运转。采用数据挖掘方法,通过对单品库存表的查询、分析,可以发现商品的库存情况、商品的销售周期、商品的缺货情况等。决策订货多少和何时订货,保证货物足够满足整个特定时期(有限或无限)内的需要,而又不浪费现有的库存资源,达到库存投资最低,实现效益最大。

??支持市场行销预测

面向市场行销预测的数据对象如下图所示。

第五章 数据仓库系统DWR的实现

38

第五章 数据仓库系统DWR的实现

顾客、价格范围、分店、销售人员多个角度来查看销售产品的销售额、利润等情况。如可以查询某月某种产品的销售量,销售总额;也可以查询某月某销售人员的销售总额等等。 ??职员分析

设计了职员管理立方体模型,通过该模型,可以从时间、工作地点、部门、级别、职务、性别、年龄范围、工资范围多个角度来查看职员的年龄、工资、人数等情况。如可以查询某年某部门职员总人数、支付工资总数、平均年龄;也可以查询某时期年龄在20至30之间的经理人数等等,从而更深入的了解企业职员的现况。

??顾客分析

设计了顾客立方体模型,通过该模型,可以从时间、家庭地点、顾客类型、收入、教育程度、性别、年龄、婚姻多个角度来查看顾客的消费、人数、帐户余额等情况。如:可以查询某月持金卡、年龄在30到50之间顾客总人数;也可以查询某时期某一地区女性顾客消费金额、消费次数等等,从而更深入的了解顾客的消费情况,面向不同特征的顾客提供更好的促销方法。 ??订货分析

设计了订货立方体模型,通过该模型,可以从时间、商品、供应商、分店、订货人员、付款方式多个角度来查看订货产品的订货、交货、退货、订货次数、交货延时、付款等情况。如可以查询某月某种产品的订货量,订货总额;也可以查询某月向某供应商的订货总额等等。

从软件功能上看,DWR主要有以下特点。

1. 实现了数据集成。首先,从多源数据库中抽取数据;其次,

对数据进行加工、整理、汇总,以确保数据仓库中的数据能够提供企业一致的全局信息。

2. 能够保存有效历史数据,以用于决策。录入或抽取到数据仓

库中的数据,将作为历史数据长期保存,如果有变化,也只是存贮粒度上的变化。

3. 实现了数据仓库数据的有效更新。即实现了不断地补充和追

加,形成历史数据。

4. 实现了分析。通过本文设计的数据集浏览器,使得

用户能够以表格和图表的多种方式浏览立方体数据,有效的支持了决策分析。

5. 结构设计合理。数据库结构的设计,充分体现了零售业的特

39

点,能够满足管理层用户的需求。

6. 界面操作简单。由于DWR的用户群是经营管理者,针对他们

对计算机主业知识了解较少的特点,DWR的用户界面设计本着方便交流、操作简单的原则,操作的简便性的到了保证。 数据仓库系统DWR采取合理的数据分割、存贮粒度等技术以及科学的数据仓库设计方法和管理,使得该系统具有良好的性能,能够有效地支持分析和数据挖掘,从而有效地支持决策分析,为企业第五章 数据仓库系统DWR的实现

赢得高的投资回报。

40

第六章 应用实例——电子商务中的

数据挖掘系统 

第六章 应用实例——电子商务中的数据挖掘系统

随着电子商务,特别是商业POS系统的广泛应用,数据库中可以收集到大量关于客户购买情况的数据,而这些数据在商业决策中的重要性越来越显著。如果对数据进行更深层次处理,可以得到关于数据的总体特征以及发展趋势的预测。利用挖掘(Data Mining)技术通过对数据的分析,可以得到关于客户购买取向和兴趣的信息。

用于电子商务中的“数据挖掘”软件将是一个地运行在Windows中文平台上的后台作业。包括可从用户选择的七个软件模块:数据总结模块、分类发现模块、聚类发现模块、关联规则发现模块、市场行销预测模块、库存量及进货时间择优。选择模块和营销图表分析模块。 

本文所设计的数据仓库系统DWR在该数据挖掘系统中取得了较好的应用效果。

在电子商务中的数据挖掘系统中,DWR主要完成以下工作: ??数据预处理 ??数据集建立 ??分析决策

DWR的数据转换子系统很好的完成了数据预处理的功能。使用数据转换子系统,实现了对数据的抽取、转换、装载,并实现了数据的不断补充与追加,使数据达到了数据挖掘的要求。

在DWR中,数据集的建立采取给定模型的方式,这样就避免了用户因不懂专业知识而错误建模的问题。以向导的方式建立数据集,使得用户操作起来更简单,理解起来更容易。

DWR的联机分析处理子系统使用本文开发的数据集浏览器进行分析查询,用户能够以表格及图表等多种方式查询立方体数据,更好的从多角度理解数据,从而更好的进行决策分析。

DWR在电子商务中的数据挖掘系统中取得了良好的应用效果。该项目是国家中小型科技企业创新基金项目,已通过省科技厅组织的鉴定以及国家科技部的验收。

41

第七章 结束语 

第七章 结束语

总结

本文所作的数据仓库系统DWR主要面向零售业以及数据挖掘,在DWR的研究开发过程中,主要作了以下工作:

??对数据仓库以及OLAP技术作了研究。作者阅读了大量的资

料,了解了数据仓库与OLAP的发展和研究现状,掌握了数据仓库的设计与实施技术。

??作了深入的需求分析。作者与超市管理软件开发人员以及超

市管理人员进行了多次交流,分析了大多数大型超市的特点,确定了应用于超市的数据仓库的结构以及数据集模型。 ??对数据挖掘技术进行了研究。数据仓库技术是数据挖技术的

关键基础,作者了解了数据挖掘的过程、主要任务、方法、具体应用等等。

??设计了友好的用户界面。数据仓库系统DWR主要面对经营管

理者,界面的友好性,操作的简便性对用户来讲是很重要的。 DWR在数据清理方面采用人工处理的方法,这种方法在数据规范性差的时候很不适用,需要处理的数据太多。选择和使用有效的通用性数据清理算法是下一步要做的工作。本文提供的分析立方体涉及的主题随着用户需求的扩展,有待于进一步增加。 

展望

本文所设计的数据仓库系统DWR所设计的数据库以及数据集结构,很好的反映了零售业的商务流程,DWR中的分析工具使用户能够更高效的访问企业的关键数据。 

大型的企业、商业每天都要产生大量的数据,这些数据中隐藏了大量的有价值的信息,建立数据仓库这种分析型环境存储这些数据是必要,而且是必须的。只有在数据仓库之上,才能更好地支持决策分析、数据挖掘。进行企业决策所需的所谓决策支持信息不是单纯能够从联机处理系统直接得到的,往往需要进行深层次的分析与采掘才能提炼出对当前某一决策问题真正有价值的信息来。只有将决策信息系统建立在一个集成一致的数据环境,即数据仓库之上,才能真正地保证企业的数据分析软件能随时高效地访问这些每时每刻都在增长和变

42

化的数据,以服务与企业的各个层次的决策的需要。 

因此随着时代的发展,企业要增强竞争力,在激烈的市场竞争中保持优势,采用数据仓库技术,建立支持分析、数据挖掘等技术的商业决策支持系统是必要的。

第七章 结束语

43

参考文献 

【1】S. Chaudhuri and U. Dayal. An overview of data warehousing and

OLAP technology. ACM SIGMOD Record, 26:65{74, 1997. 【2】Han, J., Chiang, J., Chee, S., Chen, J., Chen, Q., Cheng, S., Gong, W.,

Kamber, M.,Liu, G., Koperski, K., Lu, Y., Stefanovic, N., Winstone, L., Xia, B., Zaiane, O. R., Zhang, S. & Zhu, H. (1997), DBMiner: A system for data mining in relational databases and data warehouses, in `Proc. CASCON'97: Meeting of Minds', Toronto, Canada, pp. 249--260. 【3】S. Geffner, D. Agrawal, A. El Abbadi, T. Smith. Relative Prefix Sums:

An Efficient Approach for Querying Dynamic OLAP Data Cubes. To appear in Proc. of the 15th International Conference on Data Engineering, Sydney, Australia, March 1999.

【4】C. Ho, R. Agrawal, N. Megiddo, R. Srikant. Range Queries in OLAP

Data Cubes. In Proc. of the ACM SIGMOD Conference on the Management of Data, pages 73-88, 1997.

【5】M. Jarke, M.A.Jeusfeld, C. Quix, P. Vassiliadis: Architecture and

quality in data warehouses, Proceedings CaiSE 98, Pisa, Italy, 1998. 【6】H. Gupta, V. Harinarayan, A. Rajaraman, and J. Ullman. Index

selection in OLAP. In Proceedings of the ICDE, 1997.

【7】S. Sarawagi, R. Agrawal, and N. Megiddo. Discovery- driven

exploration of OLAP data cubes. In Proc. Int. Conf. of Extending Database Technology (EDBT'98), March 1998.

【8】Jiawei Han,OLAP Mining:An Integration of OLAP with Data

Mining,Intelligent Database Systems Reserch Lab,School of Computing Science,Simon Fraser University,British Columbia,Canada,

【9】J.Han,Data Mining Techniques,Proc.1996 ACM-SIGMOD Int’l

Conf.on Managememt of Data,Montreal,Canada,June 1996 【10】Enterprise DWH Solution,Japan NEC

【11】W.H.Inmon ,Building the Data Warehouse,机械工业出版社,

第一版,2000.5

【12】高洪深,决策支持系统(DSS)理论方法案例,清华大学出版社,

44

第二版,2000.9 

【13】William C.Amo,SQL Server OLAP开发指南,电子工业出版社,

第一版,2000.8

【14】Michael Corey, Michael Abbey,SQL Server 7 Data Warehousing,

北京希望电子出版社,第一版,2000.1

【15】George Spofford,Microsoft OLAP解决方案,人民邮电出版社,

第一版,2000.9 

【16】Jiawei Han, Micheline Kamber,Data Mining: Concepts and

Techniques,机械工业出版社,第一版,2001.8 

45

 

致  谢 

在此,我要向导师周春光教授致以最衷心的谢意!本文是在周老师的悉心指导下完成的。三年以来,周老师严谨治学、精益求精的工作作风,兢兢业业、孜孜以求的进取精神,宽以待人的生活态度,都给我留下了深刻的印象。周老师传授给我的不仅仅是丰富的专业学术知识和刻苦钻研的精神,还有积极宽容的人生态度和很多做人的道理,这必将对我今后的学习、工作和生活产生积极深远的影响。

感谢数据挖掘项目组内的老师、同学,大家融洽讨论和合作,使我从中获得了不少建设性的意见和观点。

感谢我的家人,对我学业始终如一的支持,在生活上给我无微不至的关怀。

感谢所有与我朝夕相处的老师、同学和朋友们!感谢他们对我的支持和关心!

46

摘  要 

当前,在各种企业、商业领域中的交易记录电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。开发出有效、实用的商务决策支持系统无疑将有广阔的市场前景和巨大的经济、社会效益。为了进行有效的决策,决策者不仅需要当前的数据,还需要过去的历史数据,才能完成各种复杂分析以支持决策,这就需要新型的数据贮存和处理技术──数据仓库。

“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被看作一种体系,通过将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分析报告和决策制定。数据仓库主要有三方面的作用:首先,数据仓库提供了支持企业级标准的报表和图表功能。其次,数据仓库支持分析。第三,数据仓库是数据挖掘技术的关键基础。

本文所阐述的正是面向零售业的数据仓库系统DWR的设计与实现过程。本文首先对数据仓库与联机分析处理技术作了简单介绍,然后详细说明了数据仓库数据库以及数据集模型的设计,最后详细说明了数据仓库系统DWR的软件结构设计与实现。

本文所设计的数据仓库数据库遵循数据仓库的设计原则,采用合理的双重粒度级别,粒度的双重级别分为轻度综合级和“真实档案”细节数据级。细节数据级存放销售明细等具体信息;轻度综合级存放经过汇总的数据,主要用于决策分析。DWR主要面对零售业用户,而且DWR有一个重要的功能就是支持数据挖掘。考虑零售业的行业及其操作型数据库的特点,再加上数据挖掘其它功能模块的需求,DWR中的数据结构将有针对性地采用合适的模型。例如,为了满足商品类别间关联规则发现,DWR在销售模型中使用了雪花模型,扩展了商品类别等等。

本文设计的数据集(立方体)模型是面向零售业的。针对零售业的业务流程以及经营特点选定主题,选取用户感兴趣的角度作为维度,建立了以下几个数据集模型:

47

1. 销售明细立方体模型 2. 库存立方体模型 3. 订货立方体模型 4. 职员管理立方体模型 5. 顾客立方体模型

通过以上模型,用户可以从多个角度,比如时间、商品、分店等等多个角度来查询商品销售、库存情况、订货管理、职员管理以及顾客数据。

数据仓库系统DWR的软件设计共分为两部分:一是数据转换子系统;二是联机分析查询子系统。数据转换子系统的任务是完成数据从事务数据库系统到数据仓库系统的转换过程,并完成对数据仓库数据的追加。本文中的数据转换子系统主要基于Microsoft SQL Server 的数据转换服务(DTS)实现。DTS在进行数据输入和输出时,具有抽取、转换和装载三个主要特点。利用这三个特点,可以将数据从一个数据系统传送到另一个数据系统,同时对其进行整理和转换。数据仓库数据的追加主要采用以下方法:对操作型数据加时标,创建系统日志;按一定时间期限对数据仓库进行增量更新,追加新数据。联机分析查询子系统的主要任务是以数据集模型为基础,建立数据集,实现对数据集的查询。为了更好的实现与用户的交互,本文采用向导的形式实现了数据集的建立。向导收集了数据集建立所需的所有信息,生成数据集建立脚本,基于SQL Server 的Analysis Services建立数据集。数据集的查询分析工具是OLAP技术中的关键。本文设计并实现了数据集查询分析控件CubeGrid,它能以表格、图表等多种方式展示数据及数据,并能够完成数据集上的OLAP操作(上卷、切片等)。

DWR是面向零售业的数据仓库系统,针对零售业的行业特点设计,能够满足经营管理者的大部分查询与决策需求,并能够支持数据仓库之上的数据挖掘技术。DWR在国家中小型科技企业创新基金项目——电子商务中的数据挖掘中获得了良好的应用效果,受到了专家以及用户的好评。

48

Abstract 

With the development of E-commerce, especially the application of Points of Sale (POS) in commerce, a large number of data concerning clients' purchase can be collected in database. The data collected become more and more important in business decision-making. Obviously, it's one of the greatest subjects at present how to store and manage these data to support decision analysis. The system utilizes Data Warehouse(DW) to realize data storage and management in order to provide advantageous support for decision-making and data-mining。

According to W. H. Inmon, a leading architect in the construction of data warehouse systems,” a data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management's decision making process.\"Data warehousing provides architectures and tools for business executives to systematically organize, understand, and use their data to make strategic decisions. DW mainly has three functions. First, it provides enterprise-ranked report forms and diagrams, secondly, it supports Multi-dimensional Analysis, thirdly, it is the key foundation of Data Mining technology and Decision Support System (DSS).

The thesis is just to complete the Data Warehouse of Retail (DWR)’s design and implement. First, it introduces the knowledge of data warehouse and the on line analytical process, and then show the design of database and cube models in detail, last it tell us the design and implement of the software structure of DWR.

The thesis summarizes ways and steps of DW design as well as its process-realizing in order to make DW up to anticipant standard. Thus effective storage and management of data can be realized and Data Mining and OLAP in E-commerce Decision Support System can be supported. No doubt, DW design and development will meet users' demand better and provide a good foundation for decision analysis. DWR ’s database is orient to subjects and highlight emphases to effectively support decision. The subject means the important service concerned by an enterprise’s decision maker during decision-making. DWR adopt effective granularity of data to

49

store more effective data as soon as possible in existing storage space, provide supporting environment and objects for OLAP and Data Mining to produce decision support finally. For example, in order to satisfy the association rules mining, it use the snow models in sales cube model, thus it expand the product categories.

The cube models of this thesis are face to retail. According to the characteristic of retail, it makes the subjects, as select the dimensions of users interests, build the cube models as follows:

1. Sales cube model 2. Stocks cube model 3. Orders cube model

4. Human resource cube model 5. Customer cube model

OLAP is an analytical showing tool to DW. Based on Data Multi-view, OLAP could provide users powerful processing functions on statistics, analysis and report forms as well as the ability of trend forecasting.

DWR ’s software structure is divided into two parts: one is data transform subsystem; the other is on line analytical process subsystem. The task of data transform subsystem is to complete the transformation to data from OLTP to DW, and to complete the data ‘s super addition. In the thesis, the data transform subsystem is based of Data Transform Services (DTS) of Microsoft SQL Server. DTS has three characteristics: choosing, conversing and loading. Using the three characteristics, we can transform data from one data system to another data system, and at the same time, we can clean up and converse the data. How to add new data to data warehouse? The thesis use the following method: add the time sign to OLTP, build the system log; update addition of data warehouse with some period, add the new data. The on line analytical subsystem is based of cube models, it’s task is to build the cube and analytical the multi-dimension data. The building of the cube in this subsystem is a guide. The guide collect the information of cube model, and then generate the subscript of building the cube, excute the subscript in SQL Server Analysis Services. The tools for cube data queries is the key of OLAP techniques. The thesis design and implement a control CubeGrid for cube data query. CubeGrid can show the cube data in form and chart, and it can accomplish the OLAP operation of slice, dice, drill, etc.

With the popularization of E-commerce and the development of times,

50

E-commerce Decision-making Technology will play a very important role to bring enterprises invaluable profits. The DWR is used in The System of Data Mining in Electronic Business and received the good effect.

51

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- niushuan.com 版权所有 赣ICP备2024042780号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务