`
student_lp
  • 浏览: 428898 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
一、数据仓库设计的商务分析框架     “拥有数据仓库,商务分析者能够得到什么?”首先,拥有数据仓库可以通过提供相关信息,据此估计性能并作出重要调整,以帮助战胜其他竞争对手,可以提供竞争优势。第二,数据仓库可以提高企业生产力,因为它能够快速、有效的搜集准确描述组织机构的信息。第三,数据仓库有利于客户联系管理,因为它跨越所有商务、所有部门和所有市场,提供了顾客和商品的一致视图。最后,通过一致和可靠的方式长期跟踪趋势、模式和异常,数据仓库可以降低成本。     为设计有效的数据仓库,需要理解和分析商务需求,并构造一个商务分析框架。构建一个大型复杂的信息系统就像构造一个大型复杂的建筑,业主、设 ...
一、Java垃圾回收概况   在Java内存运行时区域的各个部分,其中程序计数器、虚拟机栈、本地方法栈三个区域随线程而生,随线程而灭;栈中的栈帧随着方法的进入和退出而有条不稳得执行着出栈和入栈操作。每个栈帧中分配 ...
一、java运行时数据区域 ①程序计数器线程独有,记录线程运行到的字节码位置;②java虚拟机栈和本地方法栈线程独有,用来记录方法被执行时存储的局部变量、对象引用等;③Java堆线程共享,用来存储实例对象;④方法区线 ...
      维度建模是DW/BI系统的核心,他是ETL系统的目标、数据库的结构、支持用户查询和制作报表的模型。建模要实现3个主要设计目标,分别是:能尽可能简洁的向用户展示需要的信息;能尽快返回查询结果给用户;能提供相关信息,以便精确的跟踪潜在的业务过程。       维度建模能使任何事情尽可能简单,但绝不是简化。在数据仓库和商业智能中,维度模型是给用户显示信息的首选结构,其比典型的原系统规范化模型更便于用户理解。维度建模中表更少,信息分组为对用户有意义的、一致的业务类别。这些类别称为维度,有助于用户浏览模型,因为可以忽略与特定分析无关的全部类别。但是尽可能简洁并不意味着模型一定简单。模型必 ...
    前面介绍了一些抽象建模方法和理论,可能理解起来比较困难。所以,这里举一个例子说明数据仓库建模的大概规程。 一、背景介绍      熟悉社保行业的人员知道,目前我们国家的社保主要分为养老、失业、工伤、生 ...
    首先我们先查看三个问题:①什么是数据模型;②为什么需要数据模型;③如何创建数据模型; 一、什么是数据模型     数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表 ...
一、数据集市定义     数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。 独立型数据集市:数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。这种数据集市开发周期一般较短,具有灵活性,但是因为脱离了数据仓库,独立建立的数据集市可能会导致信息孤岛的存在,不能以全局的视角去分析数据。 从属型数据集市:数据来自于企业的数据仓库,这种会导致开发周期的延长,但是从属型数据集市在体系结构上比独立型数据集市更稳定,可以提高数据分析的质量,保证数据的一致性。 二、数据集市和数据仓库的区 ...
    数据模型是指实体、属性、实体之间的关系对业务概念和逻辑规则进行统一的定义,命名和编码,主要描述企业的信息需求和业务规则,是业务人员和开发人员沟通的语言,是数据仓库设计工作的第一步。数据模型可以划 ...
   数据仓库的组成部分有:针对数据源的分析、数据的迁移、数据的存储结构、元数据管理等。 数据源分析:业务系统的源数据通常来自企业的内部信息和外部信息。内部信息指来自企业的生产数据和历史归档数据;而企业的生产数据有可能来自于不同的业务系统,如何将这些业务数据进行标准化,转换成数据仓库可以存储的数据,从而保证数据仓库中数据的一致性,这是数据源分析最重要的一步。(归档历史数据一般是指将大量的、不常用的历史数据以在线的方式或者以离线的方式存储在数据库中或者磁带机中,这些历史数据有可能会成为数据仓库系统分析未来趋势和探究根本原因的宝贵财富。外部信息一般包括企业的法律法规、该行业的市场信息和该企业竞 ...
1、数据仓库的定义       数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间的流逝发生变化的数据集合。它主要支持管理人员的决策分析。       数据仓库收集了企业相关内部和外部各个业务系统数 ...
Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运行效率。 下面这幅图清晰地描述了MapReduce算法的整个流程,其中shuffle phase是介于Map phase和Reduce phase之间。 概念上shuffle就是一个沟通数据连接的桥梁,那么实际上shuffle这一部分是如 ...
1.   Spark Streaming 提到spark streaming,我们就必须了解一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如下三个类型: 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间; 基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间; 基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百 ...
1. 概述:什么是spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
安装过程中,由于网络终端,导致下面问题:问题1:安装停止在获取安装锁 /tmp/scm_prepare_node.tYlmPfrT using SSH_CLIENT to get the SCM hostname: 172.16.77.20 33950 22 opening logging file descriptor 正在启动安装脚本...正在获取安装锁...BEGIN flock 4      这段大概过了半个小时,一次卸载,一次等了快1个小时,终于过去了,问题2:不能选择主机    安装失败了,重新不能选主机    解决方案,需要清理安装失败文件《Hadoop之C ...
一、分布式文件系统     分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,允许一些系统扮演客户机和服务器的双重角色。例如,用户可以“发表”一个允许其他客户机访问的目录,一旦被访问,这个目录对客户机来说就象使用本地驱动器一样。 二、主流分布式文件系统介绍及特性比较 MooseFS(MFS) MooseFS是一款网络分布式文件系统。它把数据分散在多台服务器上,但对于用户来 ...
Global site tag (gtag.js) - Google Analytics