HBase+G1GC性能调优 - HBase 技术社区

标签: hbase g1gc 性能调优 | 发表时间:2017-08-10 20:48 | 作者:
出处:http://hbase-help.com
目前小米已经在线上开始大规模使用G1垃圾回收算法,在论坛中也看到一些朋友在讨论使用G1碰到的各种各样的问题,这里打算写一篇文章记录下调G1的一些经验.

 

先传送门一下,之前在HBaseConAsia2017分享过一个g1gc调优的ppt:http://openinx.github.io/2012/01/01/my-share/ 



首先,对G1算法不熟悉的同学,可以仔细读一读Oracle的G1算法教程,教程基本交代了G1的运行原理以及和CMS本质区别,如果对算法细节干兴趣,可以读一下Garbage-First Garbage Collection这篇论文,JVM的G1实现应该是按照这篇论文来的.

为了便于统计G1GC的日志信息,我们需要开启以下所有的G1参数:
-verbose:gc

-XX:+PrintGC

-XX:+PrintGCDetails

-XX:+PrintGCApplicationStoppedTime

-XX:+PrintHeapAtGC

-XX:+PrintGCDateStamps

-XX:+PrintAdaptiveSizePolicy

-XX:+PrintTenuringDistribution

-XX:+PrintSafepointStatistics

-XX:PrintSafepointStatisticsCount=1

-XX:PrintFLSStatistics=1



 在阅读了Tuning G1GC For Your HBase Cluster 这篇官方博客之后,大致确定了以下G1初始参数(以下参数都只是初始值,具体哪个参数合适,还需要我们手动来调整具体每个参数,然后看G1GC的统计数据来分析):
-Xmx30g -Xms30g

-XX:MaxDirectMemorySize=30g

-XX:+UseG1GC

-XX:+UnlockExperimentalVMOptions

-XX:MaxGCPauseMillis=90

-XX:G1NewSizePercent=8

-XX:InitiatingHeapOccupancyPercent=30

-XX:+ParallelRefProcEnabled

-XX:ConcGCThreads=4

-XX:ParallelGCThreads=16

-XX:MaxTenuringThreshold=1

-XX:G1HeapRegionSize=32m

-XX:G1MixedGCCountTarget=64

-XX:G1OldCSetRegionThresholdPercent=5

 

其中重点需要调优的参数主要有:

1. G1NewSizePercent:  G1的Young区大小是通过算法来自适应确定的, 也就是根据之前Young区GC的耗时来确定之后的Young大小,如果耗时过长,则调小Young区,耗时过短,则调大Young区. 这个参数表示Young的最小百分比.

2. InitiatingHeapOccupancyPercent: 当占用内存超过这个百分比的时候, G1开始执行多次Mixed GC来整理老年代内存碎片.

3. G1MixedGCCountTarget: 当占用内存超过InitiatingHeapOccupancyPercent阀值时, 最多通过多少次Mixed GC来将内存控制在阀值之下.

4. MaxTenuringThreshold: 当一个对象gc的代数超过这个值的时候, 会将对象从young区挪到old区.

5. G1HeapRegionSize: 表示G1将每个Region切分成多大, 注意一定要写单位, 例如32m.

 

 

由于每个参数的取值范围非常广, 例如G1NewSizePercent一般可以从0到10不等(甚至可以取更大), 而且参数众多. 于是, 我们写一个脚本用来修改每一个参数,然后自动重启, 并记录每个参数的测试开始时间点和结束时间点. 后面只需要通过工具自动分析gc日志即可. 这里, 脚本每次只会调整一个参数, 然后重启整个集群, 然后通过PerformanceEvaluation工具进行压力测试, 压力测试会跑一个小时,跑完之后调整下一个参数, 后续接着跑.

 

脚本地址在这里: https://github.com/openinx/scripts/blob/master/java-g1gc-tuning.py 

 

跑完所有的参数之后, 后续就需要通过工具来分析G1的日志了, 之前HubSpot开发了一个Python工具, 叫做gc_log_visualizer , 这个工具通过正则提取日志数据, 然后绘制成监控图, 比较方便查看G1的全局状态. 

 

相关 [hbase g1gc 性能调优] 推荐:

HBase+G1GC性能调优 - HBase 技术社区

- -
目前小米已经在线上开始大规模使用G1垃圾回收算法,在论坛中也看到一些朋友在讨论使用G1碰到的各种各样的问题,这里打算写一篇文章记录下调G1的一些经验.. 先传送门一下,之前在HBaseConAsia2017分享过一个g1gc调优的ppt:http://openinx.github.io/2012/01/01/my-share/ .

HBase性能调优

- - 学着站在巨人的肩膀上
我们经常看到一些文章吹嘘某产品如何如何快,如何如何强,而自己测试时却不如描述的一些数据. 其实原因可能在于你还不是真正理解其内部结构,对于其性能调优方法不够了解. 本文转自TaoBao的Ken Wu同学的博客,是目前看到比较完整的HBase调优文章. 原文链接:HBase性能调优. 因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果.

hbase性能调优

- - 数据库 - ITeye博客
   1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好.

HBase在淘宝主搜索的Dump中的性能调优

- - 搜索技术博客-淘宝
目前HBase已经运用于淘宝主搜索的全量和增量的数据存储,有效的减低的数据库的压力,增强了业务扩展的能力. Dump系统的特点是要求在短时间内处理大量数据,对延时要求高. 在实施这个项目过程中,我们积累了一些优化的实践,抛砖引玉,供大家参考. 环境:Hadoop CDH3U4 + HBase 0.92.1.

Hadoop性能调优

- - 开源软件 - ITeye博客
是否对任务进行profiling,调用java内置的profile功能,打出相关性能信息. 对几个map或reduce进行profiling. 非常影响速度,建议在小数据量上尝试. 1表示不reuse,-1表示无限reuse,其他数值表示每个jvm reuse次数. reuse的时候,map结束时不会释放内存.

MapReduce - 性能调优

- - CSDN博客云计算推荐文章
        Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优.         对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的. Combiner可减少Map Task中间输出的结果,从而减少各个Reduce Task的远程拷贝数据量,最终表现为Map Task和Reduce Task执行时间缩短.

Java 性能调优

- - 编程语言 - ITeye博客
1.用new关键词创建类的实例时,构造函数链中的所有构造函数都会被自动调用. 但如果一个对象实现了Cloneable接口,我们可以调用它的clone()方法. clone()方法不会调用任何类构造函数. 在使用设计模式(Design Pattern)的场合,如果用Factory模式创建对象,则改用clone()方法创建新的对象实例非常简单.

Spark性能调优

- - zzm
通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容. Spark提供了一些基本的Web监控页面,对于日常监控十分有用. http://master:4040(默认端口是4040,可以通过spark.ui.port修改)可获得这些信息:(1)stages和tasks调度情况;(2)RDD大小及内存使用;(3)系统环境信息;(4)正在执行的executor信息.

【大内存服务GC实践】- 一文看懂G1GC垃圾回收器

- - 有态度的HBase/Spark/BigData
笔者在这个系列的第一篇文章 《一文看懂”ParNew+CMS”垃圾回收器》中详细介绍了”ParNew+CMS”垃圾回收器的工作原理. 文章最后笔者提到CMS垃圾回收器有两个比较显著的问题,一个是长时间运行无法避免Full GC,一个是Remark阶段STW时间较长. 正是因为这两个问题的存在,CMS垃圾回收器在JDK9被标记弃用,慢慢开始退出历史舞台.

性能调优攻略

- - 酷壳 - CoolShell.cn
关于性能优化这是一个比较大的话题,在《 由12306.cn谈谈网站性能技术》中我从业务和设计上说过一些可用的技术以及那些技术的优缺点,今天,想从一些技术细节上谈谈性能优化,主要是一些代码级别的技术和方法. 本文的东西是我的一些经验和知识,并不一定全对,希望大家指正和补充. 在开始这篇文章之前,大家可以移步去看一下酷壳以前发表的《 代码优化概要》,这篇文章基本上告诉你—— 要进行优化,先得找到性能瓶颈.