HBase配置安装

标签: hbase | 发表时间:2013-12-06 05:17 | 作者:minglaihan
出处:http://blog.csdn.net

      HBase是一个开源的高可靠性、高性能、可伸缩、并非建立在关系模型基础上的分布式数据库,用以存储大规模结构化数据,是非关系型(NoSQL)数据库,由Chang等人基于Google的Bigtable开发而成的。HBase的目标是存储并处理大型的数据,更具体来说是只需要使用普通的硬件配置即可处理成千上万的行和列组成的大数据。

     转载请注明出处:  http://hanlaiming.freetzi.com/?p=156

一、实验环境

      1,Hadoop 版本 1.2.1, 全分布安装 一个主节点minglaihan,两个子节点node1和node2

      2,Zookeeper版本3.4.5

      3,Hbase版本0.94.13

      4,Java版本1.7.0_45

二、配置HBase

      1、安装好Hadoop后,需要安装Zookeeper和HBase,在apache官网下载相应版本,如果一般来说最新版的都会不稳定,所以建议选取稳定版。

      2、HBase启动顺序是Hadoop->Zookeeper->HBase,因此需要先安装Zookeeper,安装参考 http://hanlaiming.freetzi.com/?p=164

      3、HBase配置如下文件:

修改conf/hbase-env.sh最后一行:

export HBASE_MANAGES_ZK=false

修改conf/regionservers:

  • minglaihan
  • node1
  • node2

修改hbase-site.xml:

<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://minglaihan:9000/hbase</value>
<description>HBase数据存储目录.</description>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
<description>指定Hadoop的运行模式:false单击分布或伪分布模式 true:完全分布模式.</description>
</property>
<property>
<name>hbase.master</name>
<value>hdfs://minglaihan:60000</value>
<description>指定Msater位置.</description>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>minglaihan,node1,node2</value>
<description>指定ZooKeeper集群.</description>
</property>
</configuration>

      4,通过scp命令将配置好的HBase文件传送到各个节点。

三、启动HBase

      1,注意启动HBase前确保Hadoop和Zookeeper已经启动。在HBase的bin目录下执行start-hbase.sh或者./start-hbase.sh,

Screenshot from 2013-12-05 20_56_41

      2,进入http://minglaihan:60010查看HBase状态

Screenshot from 2013-12-05 21_00_38

      3,进入HBase Shell

Screenshot from 2013-12-05 21_01_24

      4,一些HBase的数据库操作需要认真看这方面的资料,在此不赘述。说明:exit退出当前hbase shell环境,shutdown则是关闭Hbase服务。关闭这些服务的顺序:HBase->Zookeeper->Hadoop

四、总结

      HBase对以后Hadoop的MapReduce开发模式有很重要的意义,安装只是开始,还需要更努力的学习!


作者:minglaihan 发表于2013-12-5 21:17:13 原文链接
阅读:109 评论:0 查看评论

相关 [hbase] 推荐:

hbase介绍

- AreYouOK? - 淘宝数据平台与产品部官方博客 tbdata.org
hbase是bigtable的开源山寨版本. 是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统. 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作). 主要用来存储非结构化和半结构化的松散数据.

Riak对比HBase

- - NoSQLFan
文章来自 Riak官方wiki,是一篇Riak与HBase的对比文章. Riak官方的对比通常都做得很中肯,并不刻意偏向自家产品. 对比的Riak版本是1.1.x,HBase是0.94.x. Riak 与 HBase 都是基于 Apache 2.0 licensed 发布. Riak 的实现是基于 Amazon 的 Dynamo 论文,HBase 是基于 Google 的 BigTable.

[转]HBase简介

- - 小鸥的博客
   Hbase是一个分布式开源数据库,基于Hadoop分布式文件系统,模仿并提供了基于Google文件系统的Bigtable数据库的所有功能. 其目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表. Hbase可以直接使用本地文件系统或者Hadoop作为数据存储方式,不过为了提高数据可靠性和系统的健壮性,发挥Hbase处理大数据量等功能,需要使用Hadoop作为文件系统.

HBase表设计

- - 互联网 - ITeye博客
默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据, 直到这 个region足够大了才进行切分. 一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按 照 region分区情况,在集群内做数据的负载均衡.

HBase Memstore配置

- - 行业应用 - ITeye博客
HBase Memstore配置. 本文为翻译,原英文地址:http://blog.sematext.com/2012/07/16/hbase-memstore-what-you-should-know/.     当regionserver(以下简称RS)收到一个写请求,会将这个请求定位到某个特定的region.

hbase原理

- - CSDN博客云计算推荐文章
1.hbase利用hdfs作为其文件存储系统,利用mapreduce来处理数据,利用zookeeper作为协调工具. 2.行键(row key),类似于主键,但row key是表自带的. 3.列族(column family) ,列(也称作标签/修饰符)的集合,定义表的时候指定的,列是在插入记录的时候动态增加的.

hbase锁机制

- - 数据库 - ITeye博客
博文说明:1、研究版本hbase0.94.12;2、贴出的源代码可能会有删减,只保留关键的代码.   hbase的锁是采用jdk的ReentrantReadWriteLock类实现.   一、HRegion有两种锁:lock、updatesLock,这两种锁均是ReentrantReadWriteLock类的实例,基本上所有的region操作均需要获取lock的read共享锁,在获取了lock的read锁后,如果是增加或者删除等影响数据内容的操作则还需要获取updatesLock的read锁.

Hbase入门

- - CSDN博客云计算推荐文章
Hbase 全称是Hadoop DataBase ,是一种开源的,可伸缩的,高可靠,高性能,面向列的分布式存储系统. 类似于Google的BigTable,其分布式计算采用MapReduce,通过MapReduce完成大块数据加载和全表扫描操作. 文件存储系统是HDFS,通过Zookeeper来完成状态管理协同服务.

[原]HBase StoreFile Compaction

- - 芒果先生Mango的专栏
Store File的合并策略比较复杂,涉及多个参数,合并策略的好坏,直接影响HBase的读写性能. 发现这篇博文:http://blog.csdn.net/azhao_dn/article/details/8867036 对Compaction描述的言简意赅:. hbase为了防止小文件(被刷到磁盘的menstore)过多,以保证保证查询效率,hbase需要在必要的时候将这些小的store file合并成相对较大的store file,这个过程就称之为compaction.

hbase的调优

- - CSDN博客推荐文章
1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分. 一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡.