ganglia收集hbase的metrics
Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得
Ganglia 可以实现良好的扩展。gmond 带来的系统负载非常少,这使得它成为在集群中各台计算机上运行的一段代码,而不会影响用户性能。
Ganglia监控软件主要是用来监控系统性能的软件,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。
hadoop和hbase很好地支持了ganglia这个开源监控工具,说明ganglia是hadoop生态中不可或缺的一部分。
本文介绍如果用ganglia收集hbase的各种指标,重点解决两个大家比较关注的问题:
(1) hbase指标过多,如何过滤?
(2) 修改hadoop-metrics.properties 后,能否不用重启hadoop或hbase。
一、hbase metrics 配置
以 hbase-0.98为例,需要配置 hadoop-metrics2-hbase.properties
# syntax: [prefix].[source|sink].[instance].[options] # See javadoc of package-info.java for org.apache.hadoop.metrics2 for details #*.sink.file*.class=org.apache.hadoop.metrics2.sink.FileSink default sampling period *.period=10 # Below are some examples of sinks that could be used # to monitor different hbase daemons. # hbase.sink.file-all.class=org.apache.hadoop.metrics2.sink.FileSink # hbase.sink.file-all.filename=all.metrics # hbase.sink.file0.class=org.apache.hadoop.metrics2.sink.FileSink # hbase.sink.file0.context=hmaster # hbase.sink.file0.filename=master.metrics # hbase.sink.file1.class=org.apache.hadoop.metrics2.sink.FileSink # hbase.sink.file1.context=thrift-one # hbase.sink.file1.filename=thrift-one.metrics # hbase.sink.file2.class=org.apache.hadoop.metrics2.sink.FileSink # hbase.sink.file2.context=thrift-two # hbase.sink.file2.filename=thrift-one.metrics # hbase.sink.file3.class=org.apache.hadoop.metrics2.sink.FileSink # hbase.sink.file3.context=rest # hbase.sink.file3.filename=rest.metrics *.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31 *.sink.ganglia.period=10 hbase.sink.ganglia.period=10 hbase.sink.ganglia.servers=172.18.144.198:8648
ganglia 3.1及以上版本需要用这个类:org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31
重启hbase和gmod 就可以在ganglia web界面上看到众多指标出来了。但是,指标太多了, 到region级别的了,每个 region属于哪个 table,每个table又一堆指标。从ganglia的rrd数据库中可以看到:
-rw-rw-rw- 1 hadoop root 12216 Jul 23 16:40 regionserver.Regions.Namespace_default_table_o_m_ocs_ordersplitamount_region_f15998ced89264146b3ec3888db625f6_metric_scanNext_max.rrd -rw-rw-rw- 1 hadoop root 12216 Jul 23 16:40 regionserver.Regions.Namespace_default_table_o_m_forest_maps_region_cb5490455403d92ff2e6acd17c2b3877_metric_get_95th_percentile.rrd -rw-rw-rw- 1 hadoop root 12216 Jul 23 16:40 regionserver.Regions.namespace_default_table_o_s_peking_orders_region_bc87e3d9b61ee8c14956914d407ad11c_metric_mutateCount.rrd -rw-rw-rw- 1 hadoop root 12216 Jul 23 16:40 regionserver.Regions.namespace_default_table_o_m_ocs_ordersplitamount_region_5ca4ba7d83369781b41c939d260fdcdd_metric_mutateCount.rrd -rw-rw-rw- 1 hadoop root 12216 Jul 23 16:40 regionserver.Regions.namespace_default_table_o_m_ocs_orderamount_region_3ecd8c8440eae5a1191ef9e6e523ea9f_metric_appendCount.rrd -rw-rw-rw- 1 hadoop root 12216 Jul 23 16:40 regionserver.Regions.Namespace_default_table_o_m_ocs_orderamount20140722_region_985afc00551d4fb68ceaf9188f5b9d12_metric_get_75th_percentile.rrd -rw-rw-rw- 1 hadoop root 12216 Jul 23 16:40 regionserver.Regions.namespace_default_table_o_m_ocs_orderamount20140722_region_9672e9b9ea759fc1aee838e4ae228fa9_metric_memStoreSize.rrd -rw-rw-rw- 1 hadoop root 12216 Jul 23 16:40 regionserver.Regions.Namespace_default_table_o_m_chat_analysis_session20140722_region_d709618a5b60e44a03befe57ca480ef9_metric_get_num_ops.rrd
http://hbase.apache.org/book/hbase_metrics.html 这个上面提到一个warning to ganglia user:
Warning to Ganglia Users: by default, HBase will emit a LOT of metrics per RegionServer which may swamp your installation. Options include either increasing Ganglia server capacity, or configuring HBase to emit fewer metrics.
hbase 默认会吐那么多指标出来,我们得想办法过滤,保留我们需要的指标就行。下面说明如何过滤
二、指标过滤
(1) master: 去除Assignment,Balancer, Filtersystem.MetaHlog ,以及各percentile、max、median、min,保留mean平均值
(2) regionserver:去除WAL相关,以及各percentile、max、median、min,保留mean平均值
(3) region:太多,表级别的,全部去除。
*.source.filter.class=org.apache.hadoop.metrics2.filter.RegexFilter #*.source.filter.class=org.apache.hadoop.metrics2.filter.GlobFilter *.record.filter.class=${*.source.filter.class} *.metric.filter.class=${*.source.filter.class} *.period=10 *.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31 *.sink.ganglia.period=10 hbase.sink.ganglia.metric.filter.exclude=^(.*table.*)|(\\w+metric)|(\\w+region\\w+)|(Balancer\\w+)|(\\w+Assign\\w+)|(\\w+percentile)|(\\w+max)|(\\w+median)|(\\w+min)|(MetaHlog\\w+)|(\\w+WAL\\w+)$ hbase.sink.ganglia.period=10 hbase.sink.ganglia.servers=<span style="font-family: Arial, Helvetica, sans-serif;">172.18.144.198</span><span style="font-family: Arial, Helvetica, sans-serif;">:8648</span>
三、hadoop metrics system 管理
export HBASE_JMX_BASE="-Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false" export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS $HBASE_JMX_BASE -Dcom.sun.management.jmxremote.port=10101" export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS $HBASE_JMX_BASE -Dcom.sun.management.jmxremote.port=10102" export HBASE_THRIFT_OPTS="$HBASE_THRIFT_OPTS $HBASE_JMX_BASE -Dcom.sun.management.jmxremote.port=10103" export HBASE_ZOOKEEPER_OPTS="$HBASE_ZOOKEEPER_OPTS $HBASE_JMX_BASE -Dcom.sun.management.jmxremote.port=10104" export HBASE_REST_OPTS="$HBASE_REST_OPTS $HBASE_JMX_BASE -Dcom.sun.management.jmxremote.port=10105"
这一步没办法,要重启hbase。其实一开始就可以只开启JMX,重启一次。后面的 metrics配置都可以单独来启动和停止的。
JMXToolkit 比较简单,网上资料很多,在使用过程中有一些要注意的地方。
git clone https://github.com/larsgeorge/jmxtoolkit.git cd jmxtoolkit vim build.xml # 修改hbase版本为 0.98.1-hadoop2 ant
ant编译后生成 build/hbase-0.98.1-hadoop2-jmxtoolkit.jar ,这个jar是我们最终想要的。再看配置文件,build/conf/hbase-0.98.1-hadoop2-jmx.properties
不知道jmxtoolkit内部实现是怎么样的,这里面的指标名称都不对,也不全。而且我们只是需要操作metrics system,将这个文件自己编辑了下:
[hbaseMetricsSystem] @object=Hadoop:service=HBase,name=MetricsSystem,sub=Control @url=service:jmx:rmi:///jndi/rmi://${HOSTNAME}:${PORT}/jmxrmi @user=${USER|controlRole} @password=${PASSWORD|password} *stop=VOID *start=VOID
重命名 build/hbase-0.98-metrics.properties
注意 object 就是上面jconsole截图中的metrics system的 objectName,而 *stop和*start则是 Mbean 提供的方法。
测试:
java -cp hbase-0.98.1-hadoop2-jmxtoolkit.jar org.apache.hadoop.hbase.jmxtoolkit.JMXToolkit -f hbase-0.98-metrics.properties -o hbaseMetricsSystem -q stop /etc/init.d/gmond restart
可以看到修改的指标生效了。
最后,写个简单的shell,扔到生产环境上去。
#!/bin/bash # manage the metrics system of hbase individually. # ./hbase-metrics-system.sh start # ./hbase-metrics-system.sh stop config_file_template=hbase-0.98-metrics.properties config_file_product=hbase-0.98-metrics-product.properties #for i in ${hbase_hostnames=[@]};do for i in `cat $HBASE_HOME/conf/regionservers`;do cp ${config_file_template} ${config_file_product} sed -i "s/\${HOSTNAME}/$i/g" ${config_file_product} sed -i "s/\${PORT}/10102/g" ${config_file_product} java -cp hbase-0.98.1-hadoop2-jmxtoolkit.jar org.apache.hadoop.hbase.jmxtoolkit.JMXToolkit -f ${config_file_product} -o hbaseMetricsSystem -q $1 echo "$1 metrics system of $i" /bin/rm ${config_file_product} done echo "done"
办法有点简陋,先解决了再说。