首页

搜索结果

"tag:"hadoop""

1 2 下篇>>

标题及摘要 日期/时间
1
记录Presto数据查询引擎的配置过程 - 夜丶帝 - 博客园
配置准备: 1、centos6.4系统的虚拟机4个(master、secondary、node1、node2) 2、准备安装包 hadoop-cdh4.4.0、hive-cdh4.4.0、presto、discovery-server、hbase、JDK7.0+64bit、pythin2.4+、postgresql 3、配置规划 主机:192.168.69.180 master (hadoop、hbase、discovery-server、hive、presto、postgresql) 副主...
2015-3-2
5:06:00
2
HDFS Permissions & Acls - 季石磊 - 博客园
1.概述   Hadoop分布式文件系统(HDFS)对文件和文件夹的权限控制模型与POSIX文件系统的权限控制模型一样,每一个文件和文件夹都分配了所有者用户和所有者用户组。每个客户端访问HDFS的过程中,身份凭证由用户名和组列表两部分组成,Hadoop进行身份验证的时候,首先验证用户名,如果用户名验证不通过则...
2015-2-9
19:04:00
3
Drill:企业级Hadoop和NoSQL的SQL查询引擎
Apache的Drill是一个开源的,用于Hadoop和NoSQL的低延迟SQL查询引擎。 现代大数据的应用,如社交,移动互联网,互联网和物联网有着大量的用户,比传统的事务应用程序更大的数据量。这些应用程序相关的数据集的发展非常迅速,往往是自我描述,可以包括复杂的类型,比如JSON,和Parquet。 Apache的Drill从底层建立了可伸缩性地提供低延迟查询对这种快速发展的多结构化数据集。 零日分析及快速应用开发 Apache的Drill可以直接查询自我描述和半结构化数据文件(如JSON,,P...
2015-1-8
23:50:00
4
Hue ——一个用于Apache Hadoop大数据分析的Web界面应用
Hue是一个用于Apache Hadoop分析数据的Web界面。它支持文件和作业浏览器,Hive,Pig,Impala,Spark,Oozie的编辑器,Solr的搜索仪表板,HBase,Sqoop2,等等。 Hue官方网站:http://gethue.com 它的特点: 文件浏览器用于访问HDFS 编辑器开发和运行Hive查询 搜索应用程序查询,探索,可视化数据和仪表板使用Solr Impala应用程序执行交互式SQL查询 Spark编辑器和Dashboard ...
2015-1-7
17:49:00
5
使用HBase EndPoint(coprocessor)进行计算 « 搜索技术博客-淘宝
如果要统对hbase中的数据,进行某种统计,比如统计某个字段最大值,统计满足某种条件的记录数,统计各种记录特点,并按照记录特点分类(类似于sql的group by)~ 常规的做法就是把hbase中整个表的数据scan出来,或者稍微环保一点,加一个filter,进行一些初步的过滤(对于rowcounter来说,就加了FirstKeyOnlyFilter),但是这么做来说还是会有很大的副作用,比如占用大量的网络带宽(当标级别到达千万级别,亿级别之后)尤为明显,RPC的...
2014-12-9
1:25:00
6
hbase用coprocessor实现二级索引 | 邓的博客
HBase在0.92之后引入了coprocessors,提供了一系列的钩子,让我们能够轻易实现访问控制和二级索引的特性。下面简单介绍下两种coprocessors,第一种是Observers,它实际类似于触发器,第二种是Endpoint,它类似与存储过程。由于这里只用到了Observers,所以只介...
2014-12-9
1:17:00
7
[HBase] Hbase Coprocessors - 芒果先生Mango的专栏 - 博客频道 - CSDN.NET
本文是笔者学习过程中的简单笔记,日后会逐渐增加内容,主要参考资料是《Hbase The Definitive Guide》。 我们可以通过Filter来减少从Server到Client在网络上传输的数据总量,以提升效率。通过HBase的Coprocessor特性,我们甚至可以将计算(computation)移动到数据所在的节点。 Introduction to Coprocessors coprocessor使你能够直接在每个region server上执行任意的代码。更精确地说,它提供一些通过事件触发的...
2014-12-9
1:10:00
8
HBase Coprocessor 剖析与编程实践 - 林场 - 博客园
1.起因(Why HBase Coprocessor) HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(0.92)Hbase中,统计数据表的总行数,需要使用Counter方法,执行一次MapReduce Job才能得到。虽然HBase在数据存储层中集成了MapReduce,能够有效用于数据表的分布式计算。然而在很多情况下,做一些简单的相加或者聚合计算的时候,如果直接将计算过程放置在server端,能够减少...
2014-12-9
1:04:00
9
如何使用Hadoop的Partitioner - 三劫散仙 - ITeye技术网站
Partitioner的作用: 对map端输出的数据key作一个散列,使数据能够均匀分布在各个reduce上进行后续操作,避免产生热点区。 Hadoop默认使用的分区函数是Hash Partitioner,源码如下: Java代码 /** *LicensedtotheApacheSoftwareFoundation(ASF)underone *ormorecontributorlicenseagreements.SeetheNOTICEfile *distribu...
2014-12-6
0:53:00
10
MapReduce:详解Shuffle过程 - 每天一小步 - ITeye技术网站
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽最大的可能试着把Shuffle说清楚,让每一位想了解它原理的朋友都能有所收获。如果你对这篇文章有任...
2014-12-6
0:18:00
11
hadoop中MapReduce多种join实现实例分析 - 蚂蚁 - 51CTO技术博客
一、概述 对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对M...
2014-12-5
22:48:00
12
为你的 Hadoop 集群选择合适的硬件 - 技术翻译 - 开源中国社区
这是在一个平衡Hadoop集群中,为数据节点/任务追踪器提供的推荐规格: 在一个磁盘阵列中要有12到24个1~4TB硬盘 2个频率为2~2.5GHz的四核、六核或八核CPU 64~512GB的内存 有保障的千兆或万兆以太网(存储密度越大,需要的网络吞吐量越高) 名字节点角色负责协调集群上的数据存储,作业追踪器协调数据处理(备用的名字节点不应与集群中的名字节点共存,并且运行在与之相同的硬件环境上。)。Cloudera推荐客户购买在RAID1或10配置上有足够功率和企业级磁...
2014-12-5
19:34:00
13
HBase性能调优 | Ken Wu's Blog
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新...
2014-11-29
17:08:00
14
hbase 优化 - 阿里古古 - ITeye技术网站
主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会...
2014-11-29
17:03:00
15
学会定制MapReduce里的partition,sort和grouping,Secondary Sort Made Easy_HadoopChina_新浪博客
通过初期的几个开发员培训班,我发现有不少学员容易“偏爱”缺省的MapReduce行为,而忽略如何在代码里根据自己应用的需要来定制不同于系统缺省的行为。这篇文章结合Secondary Sort来介绍“Shuffle & Sort”里涉及到的三个重要操作。 缺省情况下,MapReduce Framework的Shuffle & Sort过程将所有和某一个键相关联的值“组合”(group)在一起,传送到一个唯一确定的Redu...
2013-6-21
16:17:00
16
MapReduce里面的二次排序、组排序和Partitioner - FacingTheSunCN的专栏 - 博客频道 - CSDN.NET
在MapReduce程序中,我们常常需要对属于同一个key的value进行排序,即“二次排序”,将key和value进行组合,合并成一个新的key,给map去排序。在Hadoop 1.0.4中,利用setSortComparatorClass()对二次排序进行设定,但是sort comparator需要自己实现一个comparator,下面是一个自己实现的comparator的例子。 [java]view plaincopy publicstaticclass...
2013-6-21
14:39:00
17
mapreduce编程(二)- 大象书中求每一年的最高温度 - - 博客频道 - CSDN.NET
1 通过设置了partitioner来进行分区。因为分区是按照年份来进行,所以同年的数据就可以分区到一个reducer中。 2 自定义key比较器,按照年份升序,温度值降序。这样map输出的所有kv对就是按照年份升序,温度值降序排列的。 3 自定义分组比较器,所有同一年的数据属于同一个组,那么在reduce输出的时候,只需要取第一个value就能达到输出一年最高气温的目的。
2013-6-21
11:45:00
18
Hadoop 中的两表join | Alex的个人Blog
Common Join 最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个map output key 变成了table_name_tag_prefix + join_column_value , 但是在进行partition 的时候它仍然只使用join_column_value 进行hash. 每一个reduc...
2013-6-21
10:54:00
19
HBase MapReduce实例分析 - 新城主力唱好 - 博客园
跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将介绍HBase下 MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考"第一个MapReduce应用"这篇文章来建立基本概念。
2013-6-9
11:42:00
20
Ken Wu's Blog » HBase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新...
2013-6-7
14:56:00

1 2 下篇>>