Hive创建索引

标签: hive 索引 | 发表时间:2013-12-20 17:52 | 作者:w397090770
出处:http://blog.csdn.net

填写您的邮件地址,订阅我们的精彩内容:

  写在前面的话,学 Hive这么久了,发现目前国内还没有一本完整的介绍 Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《 Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关 Hive的资料,如果对Hive的东西感兴趣,请关注本博客。

  Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。

  索引是标准的数据库技术,hive 0.7版本之后支持索引。 Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。  Hive的索引功能现在还相对较晚,提供的选项还较少。但是,索引被设计为可使用内置的可插拔的java代码来定制,用户可以扩展这个功能来满足自己的需求。 当然不是说有的查询都会受惠于Hive索引。用户可以使用EXPLAIN语法来分析HiveQL语句是否可以使用索引来提升用户查询的性能。像RDBMS中的索引一样,需要评估索引创建的是否合理,毕竟,索引需要更多的磁盘空间,并且创建维护索引也会有一定的代价。 用户必须要权衡从索引得到的好处和代价。
  下面说说怎么创建索引:
  1、先创建表:

1
2
3
4
hive> create table user( id int , name string) 
     > ROW FORMAT DELIMITED 
     > FIELDS TERMINATED BY '\t'
     > STORED AS TEXTFILE;

  2、导入数据:

1
2
hive> load data local inpath '/export1/tmp/wyp/row.txt'
     > overwrite into table user;

  3、创建索引之前测试

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
hive> select * from user where id = 500000 ;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Cannot run job locally: Input Size (= 356888890 ) is larger than
hive.exec.mode.local.auto.inputbytes.max (= 134217728 )
Starting Job = job_1384246387966_0247, Tracking URL =
 
http: //l-datalogm1.data.cn1:9981/proxy/application_1384246387966_0247/
 
Kill Command=/home/q/hadoop/bin/hadoop job -kill job_1384246387966_0247
Hadoop job information for Stage- 1 : number of mappers: 2 ; number of reducers: 0
2013 - 11 - 13 15 : 09 : 53 , 336 Stage- 1 map = 0 %,  reduce = 0 %
2013 - 11 - 13 15 : 09 : 59 , 500 Stage- 1 map= 50 %,reduce= 0 %, Cumulative CPU 2.0 sec
2013 - 11 - 13 15 : 10 : 00 , 531 Stage- 1 map= 100 %,reduce= 0 %, Cumulative CPU 5.63 sec
2013 - 11 - 13 15 : 10 : 01 , 560 Stage- 1 map= 100 %,reduce= 0 %, Cumulative CPU 5.63 sec
MapReduce Total cumulative CPU time: 5 seconds 630 msec
Ended Job = job_1384246387966_0247
MapReduce Jobs Launched:
Job 0 : Map: 2   Cumulative CPU: 5.63 sec  
HDFS Read: 361084006 HDFS Write: 357 SUCCESS
Total MapReduce CPU Time Spent: 5 seconds 630 msec
OK
500000 wyp.
Time taken: 14.107 seconds, Fetched: 1 row(s)

一共用了14.107s
  4、对user创建索引

01
02
03
04
05
06
07
08
09
10
11
12
hive> create index user_index on table user(id)
     > as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'
     > with deferred rebuild
     > IN TABLE user_index_table;
hive> alter index user_index on user rebuild;
hive> select * from user_index_table limit 5 ;
0       hdfs: //mycluster/user/hive/warehouse/table02/000000_0   [0]
1       hdfs: //mycluster/user/hive/warehouse/table02/000000_0   [352]
2       hdfs: //mycluster/user/hive/warehouse/table02/000000_0   [704]
3       hdfs: //mycluster/user/hive/warehouse/table02/000000_0   [1056]
4       hdfs: //mycluster/user/hive/warehouse/table02/000000_0   [1408]
Time taken: 0.244 seconds, Fetched: 5 row(s)

这样就对user表创建好了一个索引。

  在Hive创建索引还存在bug:如果表格的模式信息来自SerDe,Hive将不能创建索引:

01
02
03
04
05
06
07
08
09
10
11
hive> CREATE INDEX employees_index
     > ON TABLE employees (country)
     > AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'
     > WITH DEFERRED REBUILD
     > IDXPROPERTIES ( 'creator' = 'me' , 'created_at' = 'some_time' )
     > IN TABLE employees_index_table
     > COMMENT 'Employees indexed by country and name.' ;
FAILED: Error in metadata: java.lang.RuntimeException:             \
Check the index columns, they should appear in the table being indexed.
FAILED: Execution Error, return code 1 from                       \
org.apache.hadoop.hive.ql.exec.DDLTask

这个bug发生在Hive0.10.0、0.10.1、0.11.0,在Hive0.12.0已经修复了,详情请参见:https://issues.apache.org/jira/browse/HIVE-4251

本博客文章除特别声明,全部都是原创!

尊重原创,转载请注明: 转载自 过往记忆(http://www.wypblog.com/)
本文链接地址:  《Hive创建索引》(http://www.wypblog.com/archives/836)
E-mail:[email protected]    QQ:397090770
作者:w397090770 发表于2013-12-20 9:52:27 原文链接
阅读:0 评论:0 查看评论

相关 [hive 索引] 推荐:

Hive创建索引

- - CSDN博客推荐文章
  写在前面的话,学 Hive这么久了,发现目前国内还没有一本完整的介绍 Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《 Hive的那些事》序列文章,分享给大家. 我会在接下来的时间整理有关 Hive的资料,如果对Hive的东西感兴趣,请关注本博客.   Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等.

hive索引机制和原理_王玉Student的博客-CSDN博客_hive 索引

- -
Hive的索引目的是提高Hive表指定列的查询速度. 没有索引时,类似’WHERE tab1.col1 = 10’ 的查询,Hive会加载整张表或分区,然后处理所有的rows, . 但是如果在字段col1上面存在索引时,那么只会加载和处理文件的一部分. 与其他传统数据库一样,增加索引在提升查询速度时,会消耗额外资源去创建索引和需要更多的磁盘空间存储索引.

hive调优

- - 互联网 - ITeye博客
一、    控制hive任务中的map数: . 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);.

hive 优化 tips

- - CSDN博客推荐文章
一、     Hive join优化. 也可以显示声明进行map join:特别适用于小表join大表的时候,SELECT /*+ MAPJOIN(b) */ a.key, a.value FROM a join b on a.key = b.key. 2.     注意带表分区的join, 如:.

Hive中的join

- - CSDN博客云计算推荐文章
select a.* from a join b on a.id = b.id select a.* from a join b on (a.id = b.id and a.department = b.department). 在使用join写查询的时候有一个原则:应该将条目少的表或者子查询放在join操作符的左边.

hive优化(2)

- - 开源软件 - ITeye博客
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具. 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,. 所以需要去掉原有关系型数据库下开发的一些固有思维. 1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段.

hive优化

- - 开源软件 - ITeye博客
hive.optimize.cp=true:列裁剪. hive.optimize.prunner:分区裁剪. hive.limit.optimize.enable=true:优化LIMIT n语句. hive.limit.optimize.limit.file=10:最大文件数.   1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB).

Hive优化

- - 互联网 - ITeye博客
     使用Hive有一段时间了,目前发现需要进行优化的较多出现在出现join、distinct的情况下,而且一般都是reduce过程较慢.      Reduce过程比较慢的现象又可以分为两类:. 情形一:map已经达到100%,而reduce阶段一直是99%,属于数据倾斜. 情形二:使用了count(distinct)或者group by的操作,现象是reduce有进度但是进度缓慢,31%-32%-34%...一个附带的提示是使用reduce个数很可能是1.

hive bucket 桶

- - CSDN博客推荐文章
对于每一个表(table)或者分区,Hive可以进一步组织成桶. Hive也是针对某一列进行桶的组织. Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中. 采用桶能够带来一些好处,比如JOIN操作. 对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作. 那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量.

hive mapjoin使用

- - 淘剑笑的博客
今天遇到一个hive的问题,如下hive sql:. 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错. 为了解决用户的这个问题,考虑使用mapjoin,mapjoin的原理:.