MR中Hbase的Scan使用技巧

标签: mr hbase scan | 发表时间:2013-04-25 17:44 | 作者:
出处:http://www.iteye.com

Hadoop的MR运算中,Hbase可以作为输入数据源参与运算,其中作为HTable的迭代器Scan有几个使用技巧

涉及的方法如下:

public void setBatch(int batch)
public void setCaching(int caching)
public void setCacheBlocks(boolean cacheBlocks)

public void setBatch(int batch) :

为设置获取记录的列个数,默认无限制,也就是返回所有的列

public void setCaching(int caching):

每次从服务器端读取的行数,默认为配置文件中设置的值

public void setCacheBlocks(boolean cacheBlocks):

为是否缓存块,默认缓存,我们分内存,缓存和磁盘,三种方式,一般数据的读取为内存->缓存->磁盘,当MR的时候为非热点数据,因此不需要缓存

因此在MR的时候最好设置如下:

scan.setCacheBlocks(false);
scan.setCaching(200);//大了占内存,但是rpc少
scan.setBatch(6);//你需要的列

 



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [mr hbase scan] 推荐:

MR中Hbase的Scan使用技巧

- - ITeye博客
Hadoop的MR运算中,Hbase可以作为输入数据源参与运算,其中作为HTable的迭代器Scan有几个使用技巧. 为设置获取记录的列个数,默认无限制,也就是返回所有的列. 每次从服务器端读取的行数,默认为配置文件中设置的值. 为是否缓存块,默认缓存,我们分内存,缓存和磁盘,三种方式,一般数据的读取为内存->缓存->磁盘,当MR的时候为非热点数据,因此不需要缓存.

HBase-scan简介及优化(缓存与批量处理) - 嘣嘣嚓 - 博客园

- -
这种技术类似于数据库系统中的游标(cursor),并利用到了HBase提供的底层顺序存储的数据结构. 扫描操作的使用跟get方法非常类似. 由于扫描操作的工作方式类似于迭代器,所以用户无需调用scan方法创建实例,只需要调用HTable的getScanner方法,此方法在返回真正的扫描器(scanner)实例的同事,用户也可以使用它迭代获取数据.

Mr. Button 表情纽扣

- Dennis Lee - 玩意儿
Button 是一系列的纽扣设计,各种不同人脸的表情,不同颜色的线也能带来不同的效果,由 John Caswell 设计. 本文原始链接:http://www.cngadget.cn/mr-button.html.

举重小人厕纸架:Mr. T

- youschan - 爱…稀奇~{新鲜:科技:创意:有趣}
上厕所是一件累人的事情——不光是坐马桶上那位“挣”得累,旁边伺候厕纸的也累:举重小人厕纸架(Mr. T),来自设计师Eyal Soodai的创意,让每个人都能享受到皇帝般的待遇~有红色、绿色和蓝色三种颜色可选. 设计师:Eyal Soodai. 亲爱的,这些东西也会对你胃口:. 【泰国Qualy】可爱~松鼠纸巾筒/纸巾盒.

【文档管理】天才扫描仪:Genius Scan+ – PDF Scanner

- linsen - 爱Apps - www.iapps.im
精选限时免费应用,由 AppPusher 为您送达. 无限精彩,尽在 爱Apps - www.iapps.im. 本站原创内容,转载时请务必注明出处,谢谢. 大小: 6.8 MB 系统: 4.0+. 感谢” Memori, Liang, ithinky, gmail“在”爱分享“中留言分享. 使用 Genius Scan+ – PDF Scanner,可以将用户的 iPhone 变成一个便携式口袋扫描仪,它可以让用户快速扫描在旅途中碰到的各式文档内容转换成 JPEG 或 PDF 格式,在经过一系列智能处理和修整之后,用户还可以通过电子邮件或 Dropbox 或 Evernote 或谷歌文档等方式进行数据传输或同步.

Facebook 的 InnoDB patch 讓 table scan 速度變快…

- - Gea-Suan Lin's BLOG
Facebook 的 Database Engineering team 實作了 patch,讓 InnoDB 在 table scan 的速度大幅提昇:「 Making full table scan 10x faster in InnoDB」. 第一個 patch 叫做 Logical Readahead.

Spring组件扫描<context:component-scan/>使用详解

- - zzm
1.如果不想在xml文件中配置bean,我们可以给我们的类加上spring组件注解,只需再配置下spring的扫描器就可以实现bean的自动载入. . 2.下面是引用spring framework开发手册中的一段话“. Spring 2.5引入了更多典型化注解(stereotype annotations):.

Oracle RAC的VIP和SCAN IP - 学海无涯2020 - 博客园

- -
    我们都知道Oracle RAC中每个节点都有一个虚拟IP,简称VIP,与公网IP在同一个网段.     没有VIP时,Oracle客户端是靠“TCP/IP协议栈超时”来判断服务器故障. 而TCP/IP协议栈是作为OS Kernel的一部分来实现,不同的OS有不同的阀值,用户获悉数据库异常的时间完全取决于OS Kernel的实现,虽然有些OS允许修改这个阀值,但是会对其它程序产生未知影响.

Hadoop教程(三): MR重要运行参数

- - ImportNew
书接上回,继续为大家讲解 MapReduce相关. JobConf是MR任务的配置对象,也是描述MR任务在Mapreduce框架中如何执行的主要途径,框架将如实的以该对象包含的信息来执行MR任务,但要注意以下特殊情况:. 一些配置参数被管理员在hadoop相关配置文件中(比如core-site.xml,mapred-site.xml)设置为 final,则不能被任务参数值改变.

hbase介绍

- AreYouOK? - 淘宝数据平台与产品部官方博客 tbdata.org
hbase是bigtable的开源山寨版本. 是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统. 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作). 主要用来存储非结构化和半结构化的松散数据.