首页

搜索结果

"tag:"hbase""


标题及摘要 日期/时间
1
记录Presto数据查询引擎的配置过程 - 夜丶帝 - 博客园
配置准备: 1、centos6.4系统的虚拟机4个(master、secondary、node1、node2) 2、准备安装包 hadoop-cdh4.4.0、hive-cdh4.4.0、presto、discovery-server、hbase、JDK7.0+64bit、pythin2.4+、postgresql 3、配置规划 主机:192.168.69.180 master (hadoop、hbase、discovery-server、hive、presto、postgresql) 副主...
2015-3-2
5:06:00
2
HDFS Permissions & Acls - 季石磊 - 博客园
1.概述   Hadoop分布式文件系统(HDFS)对文件和文件夹的权限控制模型与POSIX文件系统的权限控制模型一样,每一个文件和文件夹都分配了所有者用户和所有者用户组。每个客户端访问HDFS的过程中,身份凭证由用户名和组列表两部分组成,Hadoop进行身份验证的时候,首先验证用户名,如果用户名验证不通过则...
2015-2-9
19:04:00
3
Drill:企业级Hadoop和NoSQL的SQL查询引擎
Apache的Drill是一个开源的,用于Hadoop和NoSQL的低延迟SQL查询引擎。 现代大数据的应用,如社交,移动互联网,互联网和物联网有着大量的用户,比传统的事务应用程序更大的数据量。这些应用程序相关的数据集的发展非常迅速,往往是自我描述,可以包括复杂的类型,比如JSON,和Parquet。 Apache的Drill从底层建立了可伸缩性地提供低延迟查询对这种快速发展的多结构化数据集。 零日分析及快速应用开发 Apache的Drill可以直接查询自我描述和半结构化数据文件(如JSON,,P...
2015-1-8
23:50:00
4
Hue ——一个用于Apache Hadoop大数据分析的Web界面应用
Hue是一个用于Apache Hadoop分析数据的Web界面。它支持文件和作业浏览器,Hive,Pig,Impala,Spark,Oozie的编辑器,Solr的搜索仪表板,HBase,Sqoop2,等等。 Hue官方网站:http://gethue.com 它的特点: 文件浏览器用于访问HDFS 编辑器开发和运行Hive查询 搜索应用程序查询,探索,可视化数据和仪表板使用Solr Impala应用程序执行交互式SQL查询 Spark编辑器和Dashboard ...
2015-1-7
17:49:00
5
使用HBase EndPoint(coprocessor)进行计算 « 搜索技术博客-淘宝
如果要统对hbase中的数据,进行某种统计,比如统计某个字段最大值,统计满足某种条件的记录数,统计各种记录特点,并按照记录特点分类(类似于sql的group by)~ 常规的做法就是把hbase中整个表的数据scan出来,或者稍微环保一点,加一个filter,进行一些初步的过滤(对于rowcounter来说,就加了FirstKeyOnlyFilter),但是这么做来说还是会有很大的副作用,比如占用大量的网络带宽(当标级别到达千万级别,亿级别之后)尤为明显,RPC的...
2014-12-9
1:25:00
6
hbase用coprocessor实现二级索引 | 邓的博客
HBase在0.92之后引入了coprocessors,提供了一系列的钩子,让我们能够轻易实现访问控制和二级索引的特性。下面简单介绍下两种coprocessors,第一种是Observers,它实际类似于触发器,第二种是Endpoint,它类似与存储过程。由于这里只用到了Observers,所以只介...
2014-12-9
1:17:00
7
[HBase] Hbase Coprocessors - 芒果先生Mango的专栏 - 博客频道 - CSDN.NET
本文是笔者学习过程中的简单笔记,日后会逐渐增加内容,主要参考资料是《Hbase The Definitive Guide》。 我们可以通过Filter来减少从Server到Client在网络上传输的数据总量,以提升效率。通过HBase的Coprocessor特性,我们甚至可以将计算(computation)移动到数据所在的节点。 Introduction to Coprocessors coprocessor使你能够直接在每个region server上执行任意的代码。更精确地说,它提供一些通过事件触发的...
2014-12-9
1:10:00
8
HBase Coprocessor 剖析与编程实践 - 林场 - 博客园
1.起因(Why HBase Coprocessor) HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(0.92)Hbase中,统计数据表的总行数,需要使用Counter方法,执行一次MapReduce Job才能得到。虽然HBase在数据存储层中集成了MapReduce,能够有效用于数据表的分布式计算。然而在很多情况下,做一些简单的相加或者聚合计算的时候,如果直接将计算过程放置在server端,能够减少...
2014-12-9
1:04:00
9
如何使用Hadoop的Partitioner - 三劫散仙 - ITeye技术网站
Partitioner的作用: 对map端输出的数据key作一个散列,使数据能够均匀分布在各个reduce上进行后续操作,避免产生热点区。 Hadoop默认使用的分区函数是Hash Partitioner,源码如下: Java代码 /** *LicensedtotheApacheSoftwareFoundation(ASF)underone *ormorecontributorlicenseagreements.SeetheNOTICEfile *distribu...
2014-12-6
0:53:00
10
MapReduce:详解Shuffle过程 - 每天一小步 - ITeye技术网站
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽最大的可能试着把Shuffle说清楚,让每一位想了解它原理的朋友都能有所收获。如果你对这篇文章有任...
2014-12-6
0:18:00
11
hadoop中MapReduce多种join实现实例分析 - 蚂蚁 - 51CTO技术博客
一、概述 对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对M...
2014-12-5
22:48:00
12
为你的 Hadoop 集群选择合适的硬件 - 技术翻译 - 开源中国社区
这是在一个平衡Hadoop集群中,为数据节点/任务追踪器提供的推荐规格: 在一个磁盘阵列中要有12到24个1~4TB硬盘 2个频率为2~2.5GHz的四核、六核或八核CPU 64~512GB的内存 有保障的千兆或万兆以太网(存储密度越大,需要的网络吞吐量越高) 名字节点角色负责协调集群上的数据存储,作业追踪器协调数据处理(备用的名字节点不应与集群中的名字节点共存,并且运行在与之相同的硬件环境上。)。Cloudera推荐客户购买在RAID1或10配置上有足够功率和企业级磁...
2014-12-5
19:34:00
13
HBase性能调优 | Ken Wu's Blog
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新...
2014-11-29
17:08:00
14
hbase 优化 - 阿里古古 - ITeye技术网站
主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会...
2014-11-29
17:03:00
15
HBase MapReduce实例分析 - 新城主力唱好 - 博客园
跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将介绍HBase下 MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考"第一个MapReduce应用"这篇文章来建立基本概念。
2013-6-9
11:42:00
16
Ken Wu's Blog » HBase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新...
2013-6-7
14:56:00
17
hbase ( key 设计 ) 条件查询排序分页
Paging is a very common use-case for web sites and many other applications. In relational databases, this is easily implemented with LIMIT and OFFSET, or by selecting the row number in the query and adding conditionals based on it’s value. HBase 0.1...
2013-6-7
11:58:00
18
Ken Wu's Blog » HBase二级索引与Join
1,按索引建表 每一个索引建立一个表,然后依靠表的row key来实现范围检索。row key在HBase中是以B+ tree结构化有序存储的,所以scan起来会比较效率。 单表以row key存储索引,column value存储id值或其他数据 ,这就是Hbase索引表的结构。 如何Join? 多索引(多表)的join场景中,主要有两种参考方案: 1,按索引的种类扫描各自独立的单索引表,最后将扫描结果merge。 这个方案的特点是简单,但是如果多个索引扫描结果数据量比较大的话,merge就会遇到瓶颈。 ...
2013-6-7
11:39:00
19
HBase存储时间相关多列数据的两种方案 - 大圆那些事 - 博客园
多行单列 表结构设计 Row Key:用户标识ID + (Long.MAX_VALUE - timestamp) Column Family:’cf’ Column Qualifier:’’ Value:宝贝、URL等 其中,使用(Long.MAX_VALUE – timestamp)作为Row Key的后半部分是为了便于获取最近插入的数据,一个用户标识ID下的数据存储在多个Row Key下,每个Row Key下仅有一个Column Qualif...
2013-6-7
9:47:00
20
如何理解Hadoop-Hbase原理与应用小结 - leonarding技术博客 - ITPUB个人空间 - powered by X-Space
1 我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDBMS有什么区别? 答:首先Hbase中的一个“元素”是由行键、列族名、限定符、时间戳唯一标识的并且行键作为数据行在表里的唯一标识,我们只有通过行键来访问列族别无他法。 修改数据:我们先找到要修改的行键把新的数据记录追加到对应的列族中并打上一个新时间戳代表最新版本。 删除数据:插入带有删除标记的行进入,相当于把整个行键所在的行删了。 小结:hbas...
2013-6-7
8:51:00