Phoenix二级索引(Secondary Indexing)的使用 - MOBIN - 博客园

标签: | 发表时间:2018-04-12 11:36 | 作者:
出处:http://www.cnblogs.com
摘要
HBase只提供了一个基于字典排序的主键索引,在查询中你只能通过行键查询或扫描全表来获取数据,使用Phoenix提供的二级索引,可以避免在查询数据时全表扫描,提高查过性能,提升查询效率
 
测试环境:
数据约370万
数据格式:(数据来自 搜狗实验室)
三节点集群(一主两从,hadoop和HBase属同一集群)
 
目录
  • Covered Indexes(覆盖索引)
  • Functional indexes(函数索引)
  • Global indexes(全局索引)
  • Local indexes(本地索引)
 
索引类型
Covered Indexes(覆盖索引)
覆盖索引:只需要通过索引就能返回所要查询的数据,所以索引的列必须包含所需查询的列(SELECT的列和WHRER的列)
 
不带索引的查询:
查询USERID= 9bb8b2af925864bb275b840c578df3c3的KEYWORD和URL
EXPLAIN(语句的执行逻辑及计划):
(由图看知先进行了全表扫描再通过过滤器来筛选出目标数据,显示这种查询方式效率是很低的)
 
查询时间:(平均在38s~41s)
 
 
带索引:
(创建基于USERID的覆盖索引并绑定KEYWORD列上的数据)
CREATE INDEX COVERINDEX ON CSVTANLES(USERID) INCLUDE(KEYWORD)
当你要通过UERID来查询KEYWORD时就直接可以从索引上取回数据而无需先得到索引再去数据表中查询数据
查询语句:
SECECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'
 
EXPLAIN:
(使用了COVERINDEX索引使用SCAN在索引区间内查询)
 
查询用时(平均在49ms~70ms):
注意:SELECT所带的字段必须包含在覆盖索引内
 
Functional indexes(函数索引)
从Phoeinx4.3以上就支持函数索引,其索引不局限于列,可以合适任意的表达式来创建索引,当在查询时用到了这些表达式时就直接返回表达式结果
例2:使用UPPER函数创建函数索引使查询出的USERID和URL里字母都是大写的
创建函数索引
CREATE INDEX UPPERINDEX ON CSVTABLES (UPPER(USERID || '  ' || URL))
查询:
 
Global indexes(全局索引)
全局索引适用于多读少写的场景,在写操作上会给性能带来极大的开销,因为所有的更新和写操作(DELETE,UPSERT VALUES和UPSERT SELECT)都会引起索引的更新,在读数据时,Phoenix将通过索引表来达到快速查询的目的。
在用使用全局索引之前需要在每个RegionServer上的hbase-site.xml添加如下属性:
<property>
   <name>hbase.regionserver.wal.codec</name>
   <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>
在USERID字段上创建索引
CREATE INDEX USERIDINDEX ON CSVTABLES(USERID);
 
以下查询会用到索引
SELECT USERID FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
 
SELECT USERID,ROWKEY CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
 
以下查询不会用到索引
查询语句1.
SELECT USERID,KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'
(虽然USERID是索引字段,但KEYWORD不是索引字段,所以不会使用到索引)
 
查询语句2.
SELECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'
(同理,KEYWORD不是索引字段)
 
使用以下三种方式,执行查询语句2时也将用到索引.
1.创建包含字段KEYWORD的覆盖索引
CREATE INDEX MYINDEX ON CSVTABLE(USERID) INCLUDE(KEYWORD);
 
2.强制使用索引
SELECT /*+ INDEX(CSVTABLES,MYINDEX) */ KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
如果KEYWORD是索引字段,那么就会直接从索引表中查询
如果KEYWORD不是索引字段,那么将会进行全表扫描,所以当用户明确知道表中数据较少且符合检索条件时才适用,此时的性能才是最佳的。
 
3.使用本地索引
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);
 
Local indexes(本地索引)
本地索引适用于写多读少,空间有限的场景,和全局索引一样,Phoneix在查询时会自动选择是否使用本地索引,使用本地索引,为避免进行写操作所带来的网络开销,索引数据和表数据都存放在相同的服务器中,当查询的字段不完全是索引字段时本地索引也会被使用,与全局索引不同的是,所有的本地索引都单独存储在同一张共享表中,由于无法预先确定region的位置,所以在读取数据时会检查每个region上的数据因而带来一定性能开销。
在使用本地索引需要在Master的hbase-site.xml添加以下属性
<property>
   <name>hbase.master.loadbalancer.class</name>
   <value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value>
</property>
<property>
   <name>hbase.coprocessor.master.classes</name>
   <value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value>
</property>
Phoeinx4.3以上为支持在数据region合并时本地索引region也能进行合并需要在每个region servers中添加以下属性
<property>
   <name>hbase.coprocessor.regionserver.classes</name>
   <value>org.apache.hadoop.hbase.regionserver.LocalIndexMerger</value>
</property>
创建本地索引
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);
查询
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);
整个查询只花了0.19s
 
 
删除索引
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);
如果表中的一个索引列被删除,则索引也将被自动删除,如果删除的是
覆盖索引上的列,则此列将从覆盖索引中被自动删除。
 
索引的优化
以下属性都必须在各节点上的hbase-site.xml中设置为true才能起效,
1.index.builder.threads.max:(默认值:10)
    根据主表的更新来确定更新索引表的线程数
 
2.index.builder.threads.keepalivetime:(默认值:60)
    builder线程池中线程的存活时间
 
3.index.write.threads.max:(默认值:10)
    更新索引表时所能使用的线程数(即同时能更新多少张索引表),其数量最好与索引表的数量一致
 
4.index.write.threads.keepalivetime(默认值:60)
     更新索引表的线程所能存活的时间
  
5.hbase.htable.threads.max(默认值:2147483647)
     每张索引表所能使用的线程(即在一张索引表中同时可以有多少线程对其进行写入更新),增加此值可以提高更新索引的并发量
 
6.hbase.htable.threads.keepalivetime(默认值:60)
     索引表上更新索引的线程的存活时间
 
7.index.tablefactoy.cache.size(默认值:10)
     允许缓存的索引表的数量
     增加此值,可以在更新索引表时不用每次都去重复的创建htable,由于是缓存在内存中,所以其值越大,其需要的内存越多

相关 [phoenix 索引 secondary] 推荐:

Phoenix二级索引(Secondary Indexing)的使用 - MOBIN - 博客园

- -
HBase只提供了一个基于字典排序的主键索引,在查询中你只能通过行键查询或扫描全表来获取数据,使用Phoenix提供的二级索引,可以避免在查询数据时全表扫描,提高查过性能,提升查询效率. 数据格式:(数据来自 搜狗实验室). 三节点集群(一主两从,hadoop和HBase属同一集群). Covered Indexes(覆盖索引).

华为HBase二级索引(Secondary Index)细节分析

- - 数据库 - ITeye博客
华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其 二级索引方案,这在业界引起极大的反响,甚至有人认为,如果华为早点公布这个方案,hbase的某些问题早就解决了. 其核心思想是保证索引表和主表在同一个region server上. 目前该方案华为已经开源,详见: https://github.com/Huawei-Hadoop/hindex.

Hadoop的Secondary Sorting

- - 四火的唠叨
这几天项目中使用Hadoop遇到一个问题,对于这样key-value的数据集合:id-biz object,对id进行partition(比如根据某特定的hash算法P),分为a份;使用数量为b的reducer,在reducer里面要使用第三方组件进行批量上传;上传成文件,文件数量为c,但是有两个要求:.

Phoenix(sql on hbase)简介

- - CSDN博客云计算推荐文章
Phoenix(sql on hbase)简介. Phoenix takes your SQL query, compiles it into a series of HBase scans, and orchestrates the running of those scans to produce regular JDBC result sets.

快速理解 Phoenix : SQL on HBASE

- - CSDN博客推荐文章
作者:刘旭晖 Raymond 转载请注明出处. 更多云计算相关项目快速理解文档  http://blog.csdn.net/colorant/article/details/8255910. 不同于Hive on HBase的方式,Phoenix将Query Plan直接使用HBaseAPI实现,目的是规避MapReduce框架,减少查询的时间延迟.

浅析Hadoop Secondary NameNode,CheckPoint Node,Backup Node

- - CSDN博客云计算推荐文章
Hadoop SecondaryNameNode并不是Hadoop 第二个NameNode,它不提供NameNode服务,而仅仅是NameNode的一个工具. 这个工具帮助NameNode管理Metadata数据. NameNode的HDFS文件信息(即Metadata)记录在内存中,client的文件写操作直接修改内存中的Metadata,同时也会记录到硬盘的Edits文件,这是一个Log文件.

Phoenix:在Apache HBase上执行SQL查询

- - CSDN博客推荐文章
本文来源于我在InfoQ中文站翻译的文章,原文地址是:http://www.infoq.com/cn/news/2013/02/Phoenix-HBase-SQL. 近日,Salesforce.com开源了 Phoenix,这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.

使用Apache Phoenix 实现 SQL 操作HBase

- - ITeye博客
Apache Phoenix 相信大家并不陌生,它是HBase的SQL驱动,Phoenix 使得Hbase 支持通过JDBC的方式进行访问,并将你的SQL查询转换成Hbase的扫描和相应的动作. Hbase和Phoenix的安装这里就不做过多阐述,都很简单,这里给大家简单介绍一下安装完成后如何通过SQL Client来连接到Phoenix:.

诺基亚首款WP7手机或定名Phoenix

- Dollyn - cnBeta.COM
诺基亚在今年之内推出首款Windows Phone已经是板上钉钉的事情了,就连机器的外型也差不多没有悬念,估计会和MeeGo系统的诺基亚N9共享一个模具. 现在唯一的惊喜,就是这款对于诺基亚来说,意义重大且深远的首款Windows Phone的名字.