1、数据仓库的定义
数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间的流逝发生变化的数据集合。它主要支持管理人员的决策分析。
数据仓库收集了企业相关内部和外部各个业务系统数据源、归档文件等一系列历史数据,最后转化成企业需要的战略决策信息。
- 面向主题:根据业务的不同而进行的内容划分;
- 集成特性:因为不同的业务源数据具有不同的数据特点,当业务源数据进入到数据仓库时,需要采用统一的编码格式进行数据加载,从而保证数据仓库中数据的唯一性;
- 非易失性:数据仓库通过保存数据不同历史的各种状态,并不对数据进行任何更新操作。
- 历史特性:数据保留时间戳字段,记录每个数据在不同时间内的各种状态。
2、数据仓库的特点
-
面向主题的:普通的操作型数据库主要面向事务性处理,而数据仓库中的所有数据一般按照主题进行划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中得数据进行的归纳和整理。面向主题的数据可以划分成两部分----根据原系统业务数据的特点进行主题的抽取和确定每个主题所包含的数据内容,例如客户主题、产品主题、财务主题等;而客户主题包括客户基本信息、客户信用信息、客户资源信息等内容。分析数据仓库主题的时候,一般方法是先确定几个基本的主题,然后再将范围扩大,最后再逐步求精
- 集成性:面向操作型的数据库通常是异构的、并且相互独立,所以无法对信息进行概括和反映信息的本质。而数据仓库中的数据是经过源数据的抽取、清洗、切换、加载得到的,所以为了保证数据不存在二义性,必须对源数据进行编码的统一和必要的汇总,以保证数据仓库内数据的一致性。数据仓库在经历数据集成阶段后,使数据仓库中得数据都遵循统一的编码规则,并且消除许多冗余数据。集成一般有如下两种形式:
-
①数据的集成,当数据从操作型数据传向数据仓库时,数据被集成,例如:
-
②当数据仓库是从原有分散的源数据库抽取出来的时候,为了消除编码的不一致性,需要将这些来自不同数据源的数据编码集成起来,使之遵循统一的编码规则,例如:
- 稳定性:数据仓库中得数据反映的都是一段历史时期的数据内容,他的主要操作是查询、分析而不进行一般意义上得更新(数据集成前的操作型数据库主要完成数据记录的增加、删除、修改、查询),一旦某个数据进入到仓库后,一般情况下数据会被长期保留,当超过规定的期限时才会被删除。通常数据仓库需要做的工作就是加载、查询和分析,一般不进行任何修改操作,是为了企业高层人员决策分析之用。
- 反映历史变化:数据仓库的目标就是对企业的发展趋势作出分析和预测。数据仓库不断从操作型数据库中获得变化的数据,从而形成分析和预测需要的历史数据,所以一般数据仓库中数据表的键码都含有时间键,以表明数据的历史时期信息,然后不断增加新的数据内容。数据仓库中的数据也含有数据期限(一般5-10年),当超出规定的期限时,需要删除这些过时的数据。通过这些历史信息可以对企业的发展历程和趋势作出分析和预测。数据仓库的建设需要大量的业务数据作为积累,并将这些宝贵的历史信息经过加工、整理,最后提供给决策分析人员,这是数据仓库建设的根本目的。
3、数据仓库和数据库的区别
数据仓库和数据库的不同:数据库生产系统主要是面向应用的、事物型的数据处理,一般来说具有实时性较高,数据检索量较小,普通用户的数量较大等特点。而数据仓库系统主要面向主题的、分析型的数据处理,具有实时性要求不高,数据检索量较大,主要针对特殊的用户群体,用户数量较小的特点。其中事务型和分析型处理数据是有区别的:
- 事务型处理数据一般来说对性能的要求较为严格,数据是事务驱动的,主要面向应用,存储的一般都是即时性、细节性的数据,数据是可更新的。
-
分析型处理数据一般来说对性能要求不高,数据是分析驱动的,主要面向决策分析,存储的一般都是历史、汇总性的数据,数据一般不会更新。
4、数据仓库建设
数据仓库开发应用过程主要包括:规划分析阶段、设计实现阶段、使用维护阶段。
①规划分析阶段
相关推荐
第1章主要介绍企业信息化发展历程、数据库与数据仓库概念、特点、区别、联系及数据仓库系统在企业应用概况;第2章介绍数据仓库开发工具——微软SQL Server 2000数据仓库体系结构及应用技术;第3章介绍数据仓库结构...
数据仓库和BI技术概况
Oracle 的数据仓库解决方案:本资料讲述ORACLE数据仓库的模型概况。
2023年中国数据仓库软件市场发展概况分析:预计市场规模将增长至75.55亿元图.docx
《数据仓库与数据挖掘》课程论文 基于Wine数据集的数据分析报告 专业:计算机科学与技术 二〇一五年五月二十五日 基于wine数据集的数据分析报告 摘 要:数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊...
典型的数据仓库建模⽅法论 ER模型 数据仓库之⽗Bill Inmon提出的建模⽅法是从全企业的⾼度设计⼀个3NF模型,⽤实体关系(Entity Relationship,ER)模型描述企业业务,在范式理论上符 合3NF。数据仓库中的3NF与OLTP...
维度模型 简述 维度模型是数据仓库领域的 Ralph Kimball ⼤师所倡导的,他的 The Data 阳rehouse 岛olkit-The Complete Guide to Dimensional Modeling 是 数据仓库⼯程领域最流⾏的数据仓库建模的经典。...
发展历史 数据仓库 绩效管理 高级分析 数据可视化 看板管理 商务智能2.0 至今 2005 2007 2011 2002 大数据技术 大数据应用 分析预测 数据挖掘 数据即服务 数据集市 14年来, 我们与数俱进 大数据与大数据技术(1)...
1.1 数据库系统发展概况…………………………………………………………………………..2 1.2 数据库系统简介………………………………………………………………………………..2 1.2.1 数据、数据库……...
电子商务发展概况.docx电子商务发展概况.docx电子商务发展概况.docx电子商务发展概况.docx电子商务发展概况.docx电子商务发展概况.docx
对集中式数据仓库的数据滥用或利用不足缺乏信任 需要遵守不断变化的数据政策和隐私保护措施 现有数据集成工具缺乏定制 快速开始 curl ...
初步调查及可行性分析 " "1.1 组织概况 " "某零售业连锁机构刚在某地新开一家超市,占地约600平方米,该超市员工( " "超市经理、营销策划人员、营业员、收银员、会计、出纳、仓库管理员、人力" "资源管理人员)约80...
项目概况这个程序可以让您添加,编辑更新和删除您选择的汉堡,而不会消耗任何卡路里。 太好了!观看演示要查看演示,请单击此链接:( )本地入门要使节点服务器在本地运行: 克隆此仓库( ) 在Mac上安装Nodejs( ...
项目概况在这个项目中,我将在数据仓库和AWS上学到的知识应用到Redshift上托管的数据库中构建ETL管道。 为了完成项目,我将数据从S3加载到Redshift上的登台表,然后将它们插入一组针对分析进行了优化的维度表。 最终
速用进销存的仓库管理功能非常简单,它模拟现实中的一个仓库,记录各种货品在仓库中的实时数量,通过仓库管理界面,我们可以一目了然地看见各种货品的库存状况,并附有货品低库存报警提示,让企业对货品的管理轻松...
适用于Udacity数据工程师Nanodegree的Amazon Redshift项目进行数据仓库项目概况这是Udacity数据工程师Nanodegree的数据仓库项目。 在这个项目中,我创建了一个ETL管道,该管道使用Amazon Redshift作为登台机制从...
发展历史 数据仓库 绩效管理 高级分析 数据可视化 看板管理 商务智能2.0 至今 2005 2007 2011 2002 大数据技术 大数据应用 分析预测 数据挖掘 数据即服务 数据集市 14年来, 我们与数俱进 大数据与大数据技术全文共...
CloudLockr — React Native Android应用程序项目概况CloudLockr是一种创新的数据存储系统,可将您的数字数据绑定到物理位置,同时提供安全的远程备份存储。 CloudLockr提供7个强大的保护层,可确保您的数据不会被...
从2009年到2014年,美国破产银行的数量显着增加,产生了足够的数据以进行有效分类。 尽管故障数量激增,仍然有必要创建可比较的风险状况。 以下是受监管的银行的年度计数,蓝色为正常状态,红色为不合格状态。 主要...