Hive metastore三种配置方式

标签: hive metastore | 发表时间:2015-02-24 12:03 | 作者:liyonghui160com
出处:http://www.iteye.com

 

Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为: Hive Metastore

 

 

  一、本地derby

 

这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可

 

 

  1. <xml version="1.0"?>  
  2. <xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  3.   
  4. <configuration>  
  5.   
  6. <property>  
  7.   <name>javax.jdo.option.ConnectionURL</name>  
  8.   <value>jdbc:derby:;databaseName=metastore_db;create=true</value>  
  9. </property>  
  10.    
  11. <property>  
  12.   <name>javax.jdo.option.ConnectionDriverName</name>  
  13.   <value>org.apache.derby.jdbc.EmbeddedDriver</value>  
  14. </property>  
  15.    
  16. <property>  
  17.   <name>hive.metastore.local</name>  
  18.   <value>true</value>  
  19. </property>  
  20.    
  21. <property>  
  22.   <name>hive.metastore.warehouse.dir</name>  
  23.   <value>/user/hive/warehouse</value>  
  24. </property>  
  25.    
  26. <property>  
  27.   <name>hive.metastore.warehouse.dir</name>  
  28.   <value>/user/hive/warehouse</value>  
  29. </property>  
  30.   
  31. </configuration>  


注:使用derby存储方式时,运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种存储方式的弊端是在同一个目录下同时只能有一个hive客户端能使用数据库,否则会提示如下错误

 

  1. hive> show tables;  
  2. FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Failed to start database 'metastore_db', see the next exception for details.  
  3. NestedThrowables:  
  4. java.sql.SQLException: Failed to start database 'metastore_db', see the next exception for details.  
  5. FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask  

 

二、本地mysql

这种存储方式需要在本地运行一个mysql服务器,并作如下配置(下面两种使用mysql的方式,需要将mysql的jar包拷贝到$HIVE_HOME/lib目录下)。

 

  1. <?xml version="1.0"?>  
  2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  3.   
  4. <configuration>  
  5. <property>  
  6.   <name>hive.metastore.warehouse.dir</name>  
  7.   <value>/user/hive_remote/warehouse</value>  
  8. </property>  
  9.    
  10. <property>  
  11.   <name>hive.metastore.local</name>  
  12.   <value>true</value>  
  13. </property>  
  14.    
  15. <property>  
  16.   <name>javax.jdo.option.ConnectionURL</name>  
  17.   <value>jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</value>  
  18. </property>  
  19.    
  20. <property>  
  21.   <name>javax.jdo.option.ConnectionDriverName</name>  
  22.   <value>com.mysql.jdbc.Driver</value>  
  23. </property>  
  24.    
  25. <property>  
  26.   <name>javax.jdo.option.ConnectionUserName</name>  
  27.   <value>hive</value>  
  28. </property>  
  29.    
  30. <property>  
  31.   <name>javax.jdo.option.ConnectionPassword</name>  
  32.   <value>password</value>  
  33. </property>  
  34. </configuration>  

 

三、远端mysql

 

这种存储方式需要在远端服务器运行一个mysql服务器,并且需要在Hive服务器启动meta服务。

这一种适合线上生产环境

 

这里用mysql的测试服务器,ip位192.168.1.214,新建hive_remote数据库,字符集位latine1

 

  1. <?xml version="1.0"?>  
  2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  3.    
  4. <configuration>  
  5.   
  6. <property>  
  7.   <name>hive.metastore.warehouse.dir</name>  
  8.   <value>/user/hive/warehouse</value>  
  9. </property>  
  10.    
  11. <property>  
  12.   <name>javax.jdo.option.ConnectionURL</name>  
  13.   <value>jdbc:mysql://192.168.1.214:3306/hive_remote?createDatabaseIfNotExist=true</value>  
  14. </property>  
  15.    
  16. <property>  
  17.   <name>javax.jdo.option.ConnectionDriverName</name>  
  18.   <value>com.mysql.jdbc.Driver</value>  
  19. </property>  
  20.    
  21. <property>  
  22.   <name>javax.jdo.option.ConnectionUserName</name>  
  23.   <value>hive</value>  
  24. </property>  
  25.    
  26. <property>  
  27.   <name>javax.jdo.option.ConnectionPassword</name>  
  28.   <value>password</value>  
  29. </property>  
  30.   
  31. <property>  
  32.   <name>hive.metastore.local</name>  
  33.   <value>false</value>  
  34. </property>  
  35.   
  36. <property>  
  37.   <name>hive.metastore.uris</name>  
  38.   <value>thrift://192.168.1.188:9083</value>  
  39. </property>  
  40.   
  41. </configuration>  

 

注:这里把hive的服务端和客户端都放在同一台服务器上了。

 

 

服务端和客户端可以拆开,将hive-site.xml配置文件拆为如下两部分

 

         1)、服务端配置文件

 

  1. <?xml version="1.0"?>  
  2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  3.    
  4. <configuration>  
  5.   
  6. <property>  
  7.   <name>hive.metastore.warehouse.dir</name>  
  8.   <value>/user/hive/warehouse</value>  
  9. </property>  
  10.    
  11. <property>  
  12.   <name>javax.jdo.option.ConnectionURL</name>  
  13.   <value>jdbc:mysql://192.168.1.214:3306/hive_remote?createDatabaseIfNotExist=true</value>  
  14. </property>  
  15.    
  16. <property>  
  17.   <name>javax.jdo.option.ConnectionDriverName</name>  
  18.   <value>com.mysql.jdbc.Driver</value>  
  19. </property>  
  20.    
  21. <property>  
  22.   <name>javax.jdo.option.ConnectionUserName</name>  
  23.   <value>root</value>  
  24. </property>  
  25.    
  26. <property>  
  27.   <name>javax.jdo.option.ConnectionPassword</name>  
  28.   <value>test1234</value>  
  29. </property>  
  30. </configuration>  

 

         2)、客户端(需要有hadoop环境)配置文件

 

  1. <?xml version="1.0"?>  
  2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  3.    
  4. <configuration>
  5.    
  6. <property>  
  7.   <name>hive.metastore.local</name>  
  8.   <value>false</value>  
  9. </property>  
  10.   
  11. <property>  
  12.   <name>hive.metastore.uris</name>  
  13.   <value>thrift://192.168.1.188:9083</value>  
  14. </property>  
  15.   
  16. </configuration>  

 

启动hive服务端程序

 

  1. $ bin/hive --service metastore

 

客户端直接使用hive命令即可

 

 
  1. root@my188:~$ hive   
  2. Hive history file=/tmp/root/hive_job_log_root_201301301416_955801255.txt  
  3. hive> show tables;  
  4. OK  
  5. test_hive  
  6. Time taken: 0.736 seconds  
  7. hive>  

 



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [hive metastore] 推荐:

Hive metastore三种配置方式

- - 互联网 - ITeye博客
Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储. Hive官方wiki详细介绍了这三种方式,链接为: Hive Metastore.   一、本地derby. 这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可. 注:使用derby存储方式时,运行hive会在当前目录生成一个derby文件和一个metastore_db目录.

hive调优

- - 互联网 - ITeye博客
一、    控制hive任务中的map数: . 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);.

hive 优化 tips

- - CSDN博客推荐文章
一、     Hive join优化. 也可以显示声明进行map join:特别适用于小表join大表的时候,SELECT /*+ MAPJOIN(b) */ a.key, a.value FROM a join b on a.key = b.key. 2.     注意带表分区的join, 如:.

Hive中的join

- - CSDN博客云计算推荐文章
select a.* from a join b on a.id = b.id select a.* from a join b on (a.id = b.id and a.department = b.department). 在使用join写查询的时候有一个原则:应该将条目少的表或者子查询放在join操作符的左边.

hive优化(2)

- - 开源软件 - ITeye博客
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具. 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,. 所以需要去掉原有关系型数据库下开发的一些固有思维. 1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段.

hive优化

- - 开源软件 - ITeye博客
hive.optimize.cp=true:列裁剪. hive.optimize.prunner:分区裁剪. hive.limit.optimize.enable=true:优化LIMIT n语句. hive.limit.optimize.limit.file=10:最大文件数.   1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB).

Hive优化

- - 互联网 - ITeye博客
     使用Hive有一段时间了,目前发现需要进行优化的较多出现在出现join、distinct的情况下,而且一般都是reduce过程较慢.      Reduce过程比较慢的现象又可以分为两类:. 情形一:map已经达到100%,而reduce阶段一直是99%,属于数据倾斜. 情形二:使用了count(distinct)或者group by的操作,现象是reduce有进度但是进度缓慢,31%-32%-34%...一个附带的提示是使用reduce个数很可能是1.

hive bucket 桶

- - CSDN博客推荐文章
对于每一个表(table)或者分区,Hive可以进一步组织成桶. Hive也是针对某一列进行桶的组织. Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中. 采用桶能够带来一些好处,比如JOIN操作. 对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作. 那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量.

hive mapjoin使用

- - 淘剑笑的博客
今天遇到一个hive的问题,如下hive sql:. 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错. 为了解决用户的这个问题,考虑使用mapjoin,mapjoin的原理:.

hive优化

- - 互联网 - ITeye博客
1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段. 2:尽量原子化操作,尽量避免一个SQL包含复杂逻辑. 可以使用中间表来完成复杂的逻辑. 3:单个SQL所起的JOB个数尽量控制在5个以下. 4:慎重使用mapjoin,一般行数小于2000行,大小小于1M(扩容后可以适当放大)的表才能使用,小表要注意放在join的左边(目前TCL里面很多都小表放在join的右边).