[原]hbase测试压缩效果报告

标签: | 发表时间:2013-11-20 19:04 | 作者:chenyi8888
出处:http://blog.csdn.net/chenyi8888

测试环境:

Linux master 2.6.18-348.12.1.el5 #1 SMP Wed Jul 10 05:28:41 EDT 2013 x86_64 x86_64 x86_64 GNU/Linux

hadoop-1.0.3

hbase-0.94.2

Oracle JRockit(R) (build R28.1.5-20-146757-1.6.0_29-20111004-1750-linux-x86_64, compiled mode)

测试需求,就是将hbase里的表,按照不同的压缩方式(因不支持bz,所以没有bz的测试结果),进行保存,以下是对比结果:

原始数据大小 gz snappy lzo
938.15MB 174.37MB 253.35MB 563.09MB

压缩率:

gz snappy lzo
81.41% 72.99% 39.98%

总得来说,gz效果最好。snappy和lzo都不太适合在hbase里用压缩

后面进行了一个比较特殊的测试。就是原始数据有43个columns,如果了解其存储原理的话,那么占用的空间是很大的。

我采用了合并这个43个column变成一个(注:这里考虑合并是因为有业务的需要)

根据以上的测试结果,我将测试两种场景:

1、原始数据大小与合并column后数据量的大小

2、原始数据大小与合并column并增加压缩的大小(采用gz压缩方式)

原始数据大小 合并字段后数据大小 合并字段并压缩后数据大小
938.15MB 203.3MB 65.6MB

压缩率:

合并字段 合并字段并压缩
78.33% 93.01%

通过一系列的测试发现,采用合并字段并压缩,这样达到的压缩效率是非常高的。而且也非常适合我们的业务使用场景。

所以最终的方案我们也采用了合并字段并压缩的方式,来对hbase进行相关优化处理。

此测试主要集中在如何节约磁盘空间考虑,并没有对读/写进行测试。

作者:chenyi8888 发表于2013-11-20 11:04:53 原文链接
阅读:16 评论:0 查看评论

相关 [hbase 测试 压缩] 推荐:

[原]hbase测试压缩效果报告

- - 分布式应用与服务器架构专栏
测试需求,就是将hbase里的表,按照不同的压缩方式(因不支持bz,所以没有bz的测试结果),进行保存,以下是对比结果:. snappy和lzo都不太适合在hbase里用压缩. 后面进行了一个比较特殊的测试. 就是原始数据有43个columns,如果了解其存储原理的话,那么占用的空间是很大的. 我采用了合并这个43个column变成一个(注:这里考虑合并是因为有业务的需要).

HBase随机读写性能测试

- jiaosq - NoSQLFan
本文转载自淘宝网BlueDavy同学的博客,文章基于淘宝对HBase的大量应用,给出了一个HBase的随机读写性能测试结果,对测试环境、配置及性能参数分析都有较详细的描述,推荐给各位NoSQL Fans. 根据最近生产环境使用的经验,更多的项目的采用,以及采用了更加自动的测试平台,对HBase做了更多的场景的测试,在这篇blog中来分享下纯粹的随机写和随机读的性能数据,同时也分享下我们调整过后的参数.

HBase随机写以及随机读性能测试

- d0ngd0ng - BlueDavy之技术blog
根据最近生产环境使用的经验,更多的项目的采用,以及采用了更加自动的测试平台,对HBase做了更多的场景的测试,在这篇blog中来分享下纯粹的随机写和随机读的性能数据,同时也分享下我们调整过后的参数. 1、Region Server: 5台,12块1T SATA盘(7200 RPM),No Raid,物理内存24G,CPU型号为E5620;.

使用常用工具测试HBase应用

- - CSDN博客云计算推荐文章
虽然业界采用Apache HBase来构建终端用户应用的范围越来越多,但是许多这种应用并没有经过良好的测试. 通过这篇文章,你可以了解到有关这方面的一些容易实现的测试方法. 我们首先以 JUnit为例, 然后是 Mockito 和 Apache MRUnit, 接着会使用HBase的一个微型集群来做集成测试.

基于Solr的HBase多条件查询测试

- - 互联网 - ITeye博客
某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询. HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级 的快 速检索,对于多字段的组合查询却无能为力. 针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的 HBase多条件查询方案进行测试和验证.

hbase介绍

- AreYouOK? - 淘宝数据平台与产品部官方博客 tbdata.org
hbase是bigtable的开源山寨版本. 是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统. 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作). 主要用来存储非结构化和半结构化的松散数据.

Riak对比HBase

- - NoSQLFan
文章来自 Riak官方wiki,是一篇Riak与HBase的对比文章. Riak官方的对比通常都做得很中肯,并不刻意偏向自家产品. 对比的Riak版本是1.1.x,HBase是0.94.x. Riak 与 HBase 都是基于 Apache 2.0 licensed 发布. Riak 的实现是基于 Amazon 的 Dynamo 论文,HBase 是基于 Google 的 BigTable.

[转]HBase简介

- - 小鸥的博客
   Hbase是一个分布式开源数据库,基于Hadoop分布式文件系统,模仿并提供了基于Google文件系统的Bigtable数据库的所有功能. 其目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表. Hbase可以直接使用本地文件系统或者Hadoop作为数据存储方式,不过为了提高数据可靠性和系统的健壮性,发挥Hbase处理大数据量等功能,需要使用Hadoop作为文件系统.

HBase表设计

- - 互联网 - ITeye博客
默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据, 直到这 个region足够大了才进行切分. 一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按 照 region分区情况,在集群内做数据的负载均衡.

HBase Memstore配置

- - 行业应用 - ITeye博客
HBase Memstore配置. 本文为翻译,原英文地址:http://blog.sematext.com/2012/07/16/hbase-memstore-what-you-should-know/.     当regionserver(以下简称RS)收到一个写请求,会将这个请求定位到某个特定的region.