[置顶] 博客声明--博文导览

博客分类：

声明

成功，唯有积累，没有奇迹！！！！！！博客中的文章分类：一、大数据 1、Hadoop及周边产品详解《HDFS详解》、《MapReduce详解》、《Pig详解》、《hive详解》《Sqoop详解》、《Flume详解》、《HBase详解》、《oozie详解》《Solr详解》、《yarn详解》、《HBase -ROOT-和.META.表结构【转】》《

2014-06-17 18:56
浏览 1273
评论(0)
分类:编程语言

原创：数据仓库架构和建设方法

博客分类：

数据仓库

数据仓库起因数据仓库发展数据仓库特点数据仓库进化

1.数据仓库概要 1.1.数据仓库起因在建设数据仓库之前，数据散落在企业各部门应用的数据存储中，它们之间有着复杂的业务连接关系，从整体上看就如一张巨大的蜘蛛网：结构上错综复杂，却又四通八达。在企业级数� ...

2017-06-23 11:27
浏览 3372
评论(0)
分类:互联网

数据仓库建设：维度处理

博客分类：

数据仓库

数据仓库维度建模维度处理变化维度退化维度

1.代理关键字代理关键字一般是指维度表中使用顺序（序列）分配的整数值作为主键，也称为“代理建” 代理关键字用于维度表和事实表的连接。在kimball的维度建模领域里，强烈推荐使用代理关键字的。在维度表和事实表的 ...

2017-06-15 19:17
浏览 1499
评论(0)
分类:互联网

hive文件类型与压缩

博客分类：

数据仓库

数据仓库数据存储压缩格式数据存储于压缩

1.概述数据仓库在建设使用的过程中，主要消耗的资源包含：CPU、MEMORY、DISK三部分。数据仓库在计算过程中主要消耗CPU和Memory资源，当然也会消耗一些DISK资源用来存储计算过程中的临时结果。但是主要优化的方向，还� ...

2017-05-23 23:16
浏览 2605
评论(0)
分类:互联网

hive仓库表数据最终是存储在HDFS上，由于Hadoop的特性，对大文件的处理非常高效。而且大文件可以减少文件元数据信息，减轻NameNode的存储压力。但是在数据仓库中，越是上层的表汇总程度就越高，数据量也就越小，而且这些表通常会有日期分区，随着时间的推移，HDFS的文件数目就会逐步增加。一、小文件带来的问题 HDFS的文件包好数据块和元信息，其中元信息包括位置、大小、分块等信息，都保存在NameNode的内存中。每个对象大约占用150个字节，因此一千万文件及分块就会占用约3G的内存空间，一旦接近这个量级，NameNode的性能就会开始下降。 HDFS读写小文件时也会更 ...

2017-05-21 22:15
浏览 2884
评论(0)
分类:互联网

JVM项目实践

博客分类：

java编程

JVM调优 JVM问题检测 JVM应用实践 JVM设置 JVM观察

一、启动分配内存关于GC有一个常见的疑问是，在启动时，我们内存如何分配？用-Xmn,-Xmx,-Xms,-Xss,-XX:NewSize,-XX:MaxNewSize,-XX:MaxPermSize,-XX:PermSize,-XX:SurvivorRatio,-XX:PretenureSizeThreShold,-XX:MaxTenuringThreshold就基本可以配置内存启动时的分配情况。但是，具体配置多少？设置小了，频繁GC（甚至内存溢出），设置大了，内存浪费。结合前面对于内存区域和其他作用的学习，尽量考虑如下建议： -XX:PermSize尽量比-XX:MaxPe ...

2016-12-05 11:11
浏览 837
评论(0)
分类:互联网

JVM监视与调优

博客分类：

java编程

JVM设置 JVM监控 JVM调优 JVM垃圾回收 JVM参数分类

学习Java GC机制的目的是为了在JVM出现问题时分析原因并解决。JVM监控与调优主要着眼于如何配置、如何监控、如何优化3点。一、参数配置在Java虚拟机的参数中，有3种表示方法，用“ps -ef | grep java”命令，可以得到当前Java进程的所有启动参数和配置参数：标准参数（-），所有的jvm实现都必须实现这些参数的功能，并且向后兼容；非标准参数（-X），默认JVM实现这些参数的功能，但是并不保证所有jvm实现都满足，且不保证向后兼容；非Stable参数（-XX），此类参数各个JVM实现都有所不同，将来可能会随时取消，需要慎重使用（但是，这 ...

2016-12-04 15:39
浏览 563
评论(0)
分类:互联网

JVM监控与故障处理

博客分类：

java编程

java虚拟机 Java堆栈监控 Java内存调优 java服务监控

现实企业级java开发中，有时候我们会碰到下面这些问题： OutOfMemoryError内存不足内存泄露线程死锁锁争用（lock Contention） Java进程消耗CPU过高 ... ... 等等这些问题在日常开发中可能被很多人忽视（比如遇到上面这些问题就重启服务器或者跳大内存，而不会深究问题根源），但能够解决这些问题是Java程序员的必备需求。JDK本身提供了很多JVM性能调优监控工具，除了集成式的VisualVM和JConsole外，还有jps、jstack、jmap、jstat、hprof等小工具。一、jps(java virtu ...

2016-11-21 15:00
浏览 670
评论(0)
分类:互联网

hbase rowkey 查询

博客分类：

hadoop编程
项目实践

rowkey查询 rowkey分页 hbase查询 hbase遍历数据

一、hbase查询方式 hbase的查询实现只提供两种方式：按指定rowkey获取唯一一条记录：get方法。按指定条件获取一批记录：scan方法。实现条件查询功能使用的就是scan方式，scan在使用时有以下几点值的注意： scan可以通过setCaching与setBatch方法提高速度（以空间换时间） scan可以通过setStartRow与setEndRow来限定范围。范围越小，性能越高。 scan可以通过setFilter方法添加过滤器，这也是分页、多条件查询的基础。二、RowFilter使用 operator descript ...

2016-07-07 15:46
浏览 3798
评论(0)
分类:互联网

HBase Rowkey设计

博客分类：

项目实践
hadoop编程

Rowkey设计 rowkey热点 rowkey注意事项 rowkey实例 hbase学习

一、HBase的Schema和cf列族 1、Schema的创建修改 Hbase模式建立或更新可以通过Hbase shell工具或者Hbase java API中的Admin类。当列族发生变动时hbase表必须处于disabled状态。例如： Configuration config = HBaseConfiguration.create(); Admin admin = new Admin(conf); String table = "myTable"; admin.disableTable(table); HColumnDescriptor ...

2016-07-07 15:00
浏览 1036
评论(0)
分类:互联网

hbase热点问题(数据倾斜)解决方案---rowkey散列和预分区设计

博客分类：

hadoop编程
项目实践

hbase数据倾斜 hbase热点问题 rowkey设计 region分裂

Hbase的表会被划分为1....n个Region,被托管在RegionServer中。Region二个重要的属性：Startkey与EndKey表示这个Region维护的rowkey的范围，当我们要读写数据时，如果rowkey落在某个start-end key范围内，那么就会定位到目标region并且读写到 ...

2016-07-05 14:39
浏览 20061
评论(0)
分类:互联网

java高并发编程：11--ReentrantReadWriteLock深入分析

博客分类：

java编程

Java锁 Java共享锁 Java读写锁 Java高并发与线程安全

一、ReentrantReadWriteLock与ReentrantLock 说到ReentrantReadWriteLock，首先要做的是与ReentrantLock划清界限。它和后者都是单独的实现，彼此之间没有继承或实现的关系。 ReentrantLock 实现了标准的互斥操作，也就是一次只能有一个线程持有锁，也即所谓独占锁的概念。前面的章节中一直在强调这个特点。显然这个特点在一定程度上面减低了吞吐量，实际上独占锁是一种保守的锁策略，在这种情况下任何“读/读”，“写/读”，“写/写”操作都不能同时发生。但是同样需要强调的一个概念是，锁是有一定的开销的，当并发比较大 ...

2016-06-27 15:43
浏览 515
评论(0)
分类:互联网

java高并发编程：10--ReentrantLock深入分析

博客分类：

java编程

Java锁互斥锁 Java高并发锁线程安全锁 ReenTrantLock

一、什么是reentrantlock java.util.concurrent.lock 中的 Lock 框架是锁定的一个抽象，它允许把锁定的实现作为 Java 类，而不是作为语言的特性来实现。这就为 Lock 的多种实现留下了空间，各种实现可能有不同的调度算法、性能特性或者锁定语义。 ReentrantLock 类实现了 Lock ，它拥有与 synchronized 相同的并发性和内存语义，但是添加了类似锁投票、定时锁等候和可中断锁等候的一些特性。此外，它还提供了在激烈争用情况下更佳的性能。（换句话说，当许多线程都想访问共享资源时，JVM 可以花更少的时候来调度线程，把更多时间 ...

2016-06-27 15:29
浏览 878
评论(0)
分类:互联网

java高并发编程：9--Atomic原子变量与原子类

博客分类：

java编程

Atomic java原子类原子类原理 Java原子类用法

一、何谓Atomic？ Atomic一词跟原子有点关系，后者曾被人认为是最小物质的单位。计算机中的Atomic是指不能分割成若干部分的意思。如果一段代码被认为是Atomic，则表示这段代码在执行过程中，是不能被中断的。通常来说， ...

2016-06-24 16:10
浏览 1030
评论(0)
分类:互联网

java高并发编程：8--Copy-On-Write容器

博客分类：

java编程

CopyOnWriteList CopyOnWriteSet CopyOnWrite原理 CopyOnWrite实现

Copy-On-Write简称COW，是一种用于程序设计中的优化策略。其基本思路是，从一开始大家都在共享同一个内容，当某个人想要修改这个内容的时候，才会真正把内容Copy出去形成一个新的内容然后再改，这是一种延时懒惰策略。从JDK1.5开始Java并发包里提供了两个使用CopyOnWrite机制实现的并发容器,它们是CopyOnWriteArrayList和CopyOnWriteArraySet。CopyOnWrite容器非常有用，可以在非常多的并发场景中使用到。一、什么是CopyOnWrite容器 CopyOnWrite容器即写时复制的容器。通俗的理解是当我们往一个容 ...

2016-06-24 11:25
浏览 621
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[置顶] 博客声明--博文导览

原创：数据仓库架构和建设方法

数据仓库建设：维度处理

hive文件类型与压缩

hive小文件合并

JVM项目实践

JVM监视与调优

JVM监控与故障处理

hbase rowkey 查询

HBase Rowkey设计

hbase热点问题(数据倾斜)解决方案---rowkey散列和预分区设计

java高并发编程：11--ReentrantReadWriteLock深入分析

java高并发编程：10--ReentrantLock深入分析

java高并发编程：9--Atomic原子变量与原子类

java高并发编程：8--Copy-On-Write容器

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>