一、数据仓库设计的商务分析框架
“拥有数据仓库,商务分析者能够得到什么?”首先,拥有数据仓库可以通过提供相关信息,据此估计性能并作出重要调整,以帮助战胜其他竞争对手,可以提供竞争优势。第二,数据仓库可以提高企业生产力,因为它能够快速、有效的搜集准确描述组织机构的信息。第三,数据仓库有利于客户联系管理,因为它跨越所有商务、所有部门和所有市场,提供了顾客和商品的一致视图。最后,通过一致和可靠的方式长期跟踪趋势、模式和异常,数据仓库可以降低成本。
为设计有效的数据仓库,需要理解和分析商务需求,并构造一个商务分析框架。构建一个大型复杂的信息系统就像构造一个大型复杂的建筑,业主、设计师和建筑商都有不同的视图。这些视图结合在一起,形成一个复杂的框架,代表自顶向下、商务驱动的或业主的视图,也代表自底向上、建筑商驱动的或信息系统实现者的视图。
关于数据仓库的设计,必须考虑四种不同的视图:自顶向下视图、数据源视图、数据仓库视图和商务查询视图。
- 自顶向下视图:使得我们可以选择数据仓库所需的相关信息。这些信息能够满足当前和未来的商务需求。(业务建模)
- 数据源视图:揭示被操作数据库系统收集、存储和管理的信息。这些信息可能以不同的详细程度和精度记录,存放在个别数据源表或集成的数据源表中。(ODS层)
- 数据仓库视图:包括事实表和维表。他们提供存放在数据仓库内的信息,包括预算的总和与计算,以及提供历史背景的关于源、日期和时间等信息。(企业级数据仓库)
- 商务查询视图:是从最终用户的角度透视数据仓库中的数据。
建立和使用数据仓库是一项复杂的任务,因为他需要商务技巧、技术技巧和计划管理技巧。关于商务技巧,建立数据仓库涉及到理解这样的系统如何存储和管理他们的数据;如果构造一个提取程序,将数据由操作数据库转换到数据仓库;如果构造一个仓库刷新软件,合理的保持数据仓库中的数据相对于操作数据库中数据的当前性。使用数据仓库涉及理解它所包含的数据的含义,以及理解商务需求并将它转换成数据仓库查询。
关于技术技巧,数据分析者需要理解如何由定量信息做出估价,以及如何根据数据仓库中的历史信息得到的结论推到事实。这些技巧包括发现模式和趋势,根据历史推断趋势和发现异常或模式漂移的能力,并根据这种分析提出条理清晰的管理建议。最后,计划管理技巧涉及需要与许多技术人员、经销商和最终用户沟通,以便以及时和讲求效益的方式提交结果。
二、数据仓库的设计过程
数据仓库可以使用自顶向下方法、自底向上方法,或二者结合的混合方法设计。自顶向下方法由总体设计和规划开始。当技术成熟并且已经掌握,对必须解决的商务问题清楚并且已经很好的理解时,这种方法是有用的。自底向上方法以实验和原型开始。在商务建模和技术开发的早期阶段,这种方法是有用的。这样可以以相当低的代价推进,在作出重要承诺之前评估技术带来的利益。在混合方法下,一个组织既能利用自顶向下方法的规划性和战略性的特点,又能保持像自底向上方法一样开速实现和立刻应用。
从软件工程的角度来看,数据仓库的设计和构造包含以下步骤:规划、需求研究、问题分析、仓库设计、数据集成和测试,最后,部署数据仓库。大型软件系统可以用两种方法开发:瀑布式方法和螺旋式方法。瀑布式方法在进行下一步之前,每一步都进行结构的和系统的分析,就像瀑布一样,从一级落到下一级。螺旋式方法涉及功能渐增的系统的快速产生,相继发布之间的间隔很短,能够快速修改,并且新的设计和技术可以及时接受。
一般而言,数据仓库的设计过程包含如下步骤:
- 选取待建模的商务处理。如果一个商务过程是整个组织的,并涉及多个复杂的对象,应当选用数据仓库模型。然而,如果处理是部门的,并关注某一类商务处理的分析,则应选择数据集市。
- 选取商务处理的粒度。对于处理,该粒度是基本的,在事实表中是数据的原子级。
- 选取用于每个事实表记录的维。典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态。
- 选取将安放在每个事实表记录中的度量。典型的度量是可加的数据量。
由于数据仓库的构造是一项困难、长期的任务,因此应当清楚的定义它的实现范围。最初的数据仓库的实现目标应当是详细而明确的、可实现的和可测量的。这涉及确定时间和预算的分配,一个组织的那些子集需要建模,选取的数据源数量,提供服务的部门数量和类型。
一旦设计和构造好数据仓库,数据仓库的最初部署就包括初始化安装、首次展示规划、培训和熟悉情况。平台的升级和维护也要考虑。数据仓库管理包括数据刷新、数据源同步、规划灾难恢复、管理存取控制和安全、管理数据增长、管理数据库性能以及数据仓库的增强和扩充。范围管理包括控制查询、维、报告的数量和范围,限制数据仓库的大小,或限制进度、预算和资源。
各种数据仓库设计工具都可以使用。数据仓库开发工具提供一些功能,定义和编辑元数据库内容,回答查询,输出报告,向或从关系数据库目录传送元数据。规划与分析工具研究模式改变的影响,以及当刷新率或时间窗口改变时对刷新性能的影响。
三、数据仓库用于信息处理
通常数据仓库使用的时间越长,它进化的就越好。进化发生在整个过程的多个阶段。最初,数据仓库主要用于产生报告和回答预先定义的查询。渐渐地,它用于分析汇总和详细数据,结果以报表和图表形式提供。稍后,数据仓库用于决策,进行多维分析和复杂的切片以及切块操作。最后,使用数据挖掘工具,数据仓库可恩呢刚用于知识发现战略决策制定。这种意义下,数据仓库工具可以分为访问与检索工具,数据库报表工具,数据分析工具和数据挖掘工具。
企业用户需要一种手段,知道数据仓库里有什么(通过元数据),如果访问数据仓库的内容,如何使用数据分析工具考察这些内容和如何提供分析结果。
有三类数据仓库应用:信息处理、分析处理和数据挖掘。
- 信息处理:支持查询和基本的统计分析,并使用交叉表、表、图表或图进行报告。数据仓库信息处理的当前趋势是构造低价格的基于Web的访问工具,然后与Web浏览器集成在一起。
- 分析处理:支持基本的OLAP操作,包括切片和砌块、下钻、上卷和转轴。一般的,他在汇总的和细节的历史数据上操作。与信息处理相比,联机分析处理的主要优势是它支持数据仓库的多维数据分析。
- 数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并使用可视化工具提供挖掘结果。
相关推荐
推荐,数据仓库建设学习资料合集,包含建设规范、架构、工具及模型等资料。共38份。 2021数据仓库服务常见问题-华为-51页 2021云数据仓库专业服务-华为-168页 阿里云数据中台-金融行业新一代数据仓库解决方案 ...
CDAS 2017-大数据下的企业数据仓库建设-代立冬CDAS 2017-大数据下的企业数据仓库建设-代立冬CDAS 2017-大数据下的企业数据仓库建设-代立冬
主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...
全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、...
第3章 设计数据仓库 45 3.1 从操作型数据开始 45 3.2 数据/过程模型和体系结构设计环境 49 3.3 数据仓库和数据模型 50 3.3.1 数据模型 52 3.3.2 中间层数据模型 54 3.3.3 物理数据模型 58 3.4 数据模型和反复开发 59...
(完整word版)建设数据仓库的八个步骤.pdf(完整word版)建设数据仓库的八个步骤.pdf(完整word版)建设数据仓库的八个步骤.pdf(完整word版)建设数据仓库的八个步骤.pdf(完整word版)建设数据仓库的八个步骤.pdf(完整word...
数据仓库建设方案、数据仓库整体架构、数据挖掘、数据清洗、转换
理想汽车基于 Flink 的实时数据仓库 0-1 初步建设-Flink Forward Asia 2021
58交易营销数据仓库建设 Hadoop构建数据仓库实践 IBM Netezza数据仓库一体机介绍 IBM数据仓库架构 oracle数据仓库 SaaS 云数据仓库实践手册 构建真正实用且可信的数据仓库 基于数据仓库的数据挖掘技术 金融行业新...
.数据仓库与数据挖掘项目建设-精讲.pdf
浅谈数据仓库建设中的数据建模方法浅谈数据仓库建设中的数据建模方法所谓水无定势兵无常法。不同的行业有不同行业的特点因此从业务角度看其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是IB
2数据仓库与数据挖掘项目建设-讲义.pdf
数据仓库对数据质量的要求总体上归纳为:数据完整性、数据准确性、数据...在数据仓库系统建设初期数据质量不高在所难免,这需要在系统建设和使用过程中不断进行修正和补充,从而逐步完善并最终解决系统的数据质量问题。
XX数据仓库建设规范 版本号V1.0 修订历史 版本号 作者 内容提要 核准人 发布日期 1.0 初稿 1 概述 本文档制定了XX数据仓库中数据库对象的命名规范(用户、表、 视图、存储过程、函数、表分区、主键、索引、序列等)...
数据仓库建设方案-2018-3-28.docx
数据仓库及数据挖掘项目建设-讲义.doc
通过对省各业务系统数据及与地税智能系统所需的相关数据业务源数据的整合,汇集完成XX省地税统一标准化数据仓库的建设,在数据仓库的基础上建立OLAP服务器实现地税数据的多维分析、复杂数据统计和数据挖掘等功能,为...
数据治理与数据仓库模型设计的建设流程讲解