从远端集群拷贝HBase表到本地HBase

标签: 集群 拷贝 hbase | 发表时间:2015-04-26 08:42 | 作者:Belinda407
出处:http://www.iteye.com
背景描述:想导出 服务器HBase里面的一张表remine_4520及其数据,我能通过java连接HBase库,浏览器能访问master的信息。
方案:版本一样的话直接distcp表目录过来   然后hbck一下就行
HBase0.94.8,Hadoop 1.1.2,集群使用了loz压缩,远端HBase master节点域名为namenode
期间遇到了各种问题
问题1:执行 ./hadoop distcp hdfs://namenode/hbase/remine_4250 hdfs://127.0.0.1/hbase
      现象:opy failed: java.net.ConnectException: Call to namenode/10.20.5.34:8020 failed on connection exception: java.net.ConnectException: Connection refused
      解决:去60010界面查看HBase Root Directory,发现端口是9000

问题2:执行
./hadoop distcp hdfs://namenode:9000/hbase/remine_4520 hdfs://127.0.0.1:9000/hbase
现象:
(1)ERROR: Region { meta => null, hdfs =>hdfs://127.0.0.1:9000/hbase/remine_4520/ 50fffa73ecb465862055801ed8248428 deployed =>  } on HDFS, but not listed in META or deployed on any region server;
(2)util.HBaseFsckRepair: Region still in transition, waiting for it to become assigned
(3)failed to move out of transition within timeout 120000ms
解决:看看他把region分到了哪个rs上  然后去看那个rs的log
发现只有一个Region Server,于是直接去 $HBASE_HOME$/logs目录查看日志

问题3:现象:
java.io.IOException: Compression algorithm 'lzo' previously failed test.
解决:安装lzo和hadoop-lzo
从hdfs://namenode:60010/logs/**-regionserver-ubuntu.log 界面查看日志,得知远端集群使用的是hadoop-lzo-0.4.15.jar

问题4:下载安装lzo-2.09 http://www.oberhumer.com/opensource/lzo/download/lzo-2.09.tar.gz

$ tar -zxvf lzo-2.09.tar.gz
$ cd lzo-2.09
$ ./configure --enable-shared --prefix /usr/local/lzo-2.09
$ make && sudo make install

问题5:下载安装hadoop-lzo-0.4.15
从https://codeload.github.com/toddlipcon/hadoop-lzo/tar.gz/0.4.15下载
解压后
执行 ant package

编译期间遇到如下问题
参考了http://hi.baidu.com/qingchunranzhi/item/72155fd1ccf5e05bd73aaebc
问题6: [javah] 错误: 找不到类org.apache.hadoop.conf.Configuration。
加入一行
解决: 在 build.xml 里面添加一行
  <target name="compile-java" depends="init">
    <javac
    includeantruntime="false"
     encoding="${build.encoding}"
     srcdir="${java.src.dir}"  
     includes="**/*.java"
     destdir="${build.classes}"
     debug="${javac.debug}"
     optimize="${javac.optimize}"
     target="${javac.version}"
     source="${javac.version}"
     deprecation="${javac.deprecation}">
      <compilerarg line="${javac.args} ${javac.args.warnings}" />
      <classpath refid="classpath"/>
    </javac>

    <copy todir="${build.classes}">
      <fileset dir="${java.src.dir}" includes="**/*.properties"/>
    </copy>

  </target>
问题7: 还是[javah] 错误: 找不到类org.apache.hadoop.conf.Configuration。
解决:在 build.xml 里面添加一行
    <javah classpath="${build.classes}"
           destdir="${build.native}/src/com/hadoop/compression/lzo"
           force="yes"
           verbose="yes">
      <class name="com.hadoop.compression.lzo.LzoCompressor" />
      <class name="com.hadoop.compression.lzo.LzoDecompressor" />
     <classpath refid="classpath" />
    </javah>
问题8:ERROR lzo.GPLNativeCodeLoader: Could not load native gpl library
解决方案:拷贝文件hadoop-lzo-0.4.15/build/native/Linux-amd64-64/lib/*到目标目录
$HADOOP_HOME/lib/native/Linux-amd64-64 和 $HBASE_HOME/lib/native/Linux-amd64-64

问题9:最后执行修复命令
尝试修复错误
./hbase  hbck -fix
修复所有错误
./hbase  hbck -repairHoles

附:hbase classpath设置包含hadoop的?
export HBASE_CLASSPATH=$HBASE_CLASSPATH:`hadoop classpath`
查看目录下文件列表
hadoop fs -ls hdfs://namenode:9000/hbase
编译完hadoop-lzo后,hadoop-lzo-0.4.15.jar要同时拷贝到$HADOOP_HOME/lib和$HBASE_HOME/lib

已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [集群 拷贝 hbase] 推荐:

从远端集群拷贝HBase表到本地HBase

- - 开源软件 - ITeye博客
背景描述:想导出 服务器HBase里面的一张表remine_4520及其数据,我能通过java连接HBase库,浏览器能访问master的信息. 方案:版本一样的话直接distcp表目录过来   然后hbck一下就行. HBase0.94.8,Hadoop 1.1.2,集群使用了loz压缩,远端HBase master节点域名为namenode.

使用zookeeper管理多个hbase集群

- d0ngd0ng - 蓝色时分
    zookeeper是hbase集群的"协调器". 由于zookeeper的轻量级特性,因此我们可以将多个hbase集群共用一个zookeeper集群,以节约大量的服务器. 多个hbase集群共用zookeeper集群的方法是使用同一组ip,修改不同hbase集群的"zookeeper.znode.parent"属性,让它们使用不同的根目录.

我们是这样运维HBase集群

- - ITeye博客
今天和@淘大舞 @dun_2010 @毅毅 @知付托 一起喝酒,聊了好多,这是一个虽然苦逼但是值得骄傲的团队. @淘大舞 说的话,如果说hbase的运维,国内有人比我们做的好,那就是我们还没有做到位. 这样的环境,这样的氛围,这样靠谱的开发支持@庄庄2049 ,追求top,那是基本目标. 而最后的目标,是只要是集群运维,就没有我们搞不定的.

HBase高可用集群运维实践

- - IT瘾-bigdata
文 | zengweizhan. 随着越来越多的业务选择HBase作为存储引擎,对HBase的可用性要求也越来越高,对于HBase的运维也提出了新的挑战. 目前运维集群超过30+,而且接入的业务类型繁多,对于性能要求也不完全一样,这是今年面临的问题. 从15年开始,结合京东的业务情况,基于大数据平台,实现用户接入使用全流程自动化.

[hadoop] 基于Hadoop集群的HBase集群的配置

- - CSDN博客系统运维推荐文章
       a> 已经配置完成的Hadoop集群.        b> 所需要的软件包. 2>  单独安装的ZooKeeper集群,不基于HBase集群管理.        a> 在master01上解压zookeeper-3.4.4.tar.gz.        b> 修改Zookeeper的配置文件.

HBase入门笔记(四)--完全分布式HBase集群安装配置

- - 学着站在巨人的肩膀上
HBase 是一个开源的非关系(NoSQL)的可伸缩性分布式数据库. 它是面向列的,并适合于存储超大型松散数据. HBase适合于实时,随机对Big数据进行读写操作的业务环境. 关于HBase的更多介绍请参见 HBase项目官网.     本文环境与上一讲-- 完全分布式Hadoop集群配置一致.

Hadoop集群安装&Hbase实验环境搭建

- - CSDN博客云计算推荐文章
1.安装ubuntu10.04操作系统. 安装成功后,系统也会有相应提示:. sudo vi /etc/inetd.conf并加入以下一行. sudo vi /etc/xinetd.conf并加入以下内容:. sudo vi /etc/xinetd.d/telnet并加入以下内容:. 重启机器或重启网络服务sudo /etc/init.d/xinetd restart.

分布式集群环境hadoop、hbase、zookeeper搭建(全)

- - CSDN博客云计算推荐文章
集群环境至少需要3个节点(也就是3台服务器设备):1个Master,2个Slave,节点之间局域网连接,可以相互ping通,下面举例说明,配置节点IP分配如下:. 三个节点均使用centos 6.3系统,为了便于维护,集群环境配置项最好使用相同用户名、用户密码、相同hadoop、hbase、zookeeper目录结构.

从未降级的搜索技术 – HBase集群升级与优化

- - 搜索技术博客-淘宝
战争从来都是拼后勤拼平台支撑的,天猫双十一这一天对于我们搜索事业部来说,就是一场高强度的数字化战争. 为了这一天,各兄弟业务线的战友们已经摩拳擦掌,纷纷亮出各种新式武器,而我们原有的离线系统平台却渐渐显出疲态,慢慢被来自各业务线的不断提升的压力需求搞得捉襟见肘了. 个性化搜索实时数据处理平台(Pora)在双十一将正式亮相,当时我们预计会有数以十亿计的新增HBase读写请求,如果不进行升级优化,原有的离线集群预计将无法承受这一前所未有的压力;天猫业务线的增量在双十一更是重中之重,届时预计会有数倍甚至十多倍的增长,不断流,不延迟对于原有的离线集群来说也是巨大的考验;主搜、国际站等业务线也都对底层平台提出了越来越高的要求,凌晨全量的时间极其有限,不能出现任何闪失.

基于cdh5.7.5集群的solr(4.10.3-cdh5.7.5)+hbase(1.2.0-cdh5.7.5)构建二级索引方案

- - 行业应用 - ITeye博客
作为开发人员,在阅读该篇博客之前最好已具备以下基本技能:. 了解Linux命令、HBase Shell、Solr schema.xml文件的常用的标签含义、CDH集群基本操作(所需服务安装、卸载、配置). 在Hbase中,表的RowKey 按照字典排序, Region按照RowKey设置split point进行shard,通过这种方式实现的全局、分布式索引.