首页

搜索结果

"tag:"hadoop""

<<上篇 1 2

标题及摘要 日期/时间
21
Ken Wu's Blog » HBase二级索引与Join
1,按索引建表 每一个索引建立一个表,然后依靠表的row key来实现范围检索。row key在HBase中是以B+ tree结构化有序存储的,所以scan起来会比较效率。 单表以row key存储索引,column value存储id值或其他数据 ,这就是Hbase索引表的结构。 如何Join? 多索引(多表)的join场景中,主要有两种参考方案: 1,按索引的种类扫描各自独立的单索引表,最后将扫描结果merge。 这个方案的特点是简单,但是如果多个索引扫描结果数据量比较大的话,merge就会遇到瓶颈。 ...
2013-6-7
11:39:00
22
HBase存储时间相关多列数据的两种方案 - 大圆那些事 - 博客园
多行单列 表结构设计 Row Key:用户标识ID + (Long.MAX_VALUE - timestamp) Column Family:’cf’ Column Qualifier:’’ Value:宝贝、URL等 其中,使用(Long.MAX_VALUE – timestamp)作为Row Key的后半部分是为了便于获取最近插入的数据,一个用户标识ID下的数据存储在多个Row Key下,每个Row Key下仅有一个Column Qualif...
2013-6-7
9:47:00
23
如何理解Hadoop-Hbase原理与应用小结 - leonarding技术博客 - ITPUB个人空间 - powered by X-Space
1 我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDBMS有什么区别? 答:首先Hbase中的一个“元素”是由行键、列族名、限定符、时间戳唯一标识的并且行键作为数据行在表里的唯一标识,我们只有通过行键来访问列族别无他法。 修改数据:我们先找到要修改的行键把新的数据记录追加到对应的列族中并打上一个新时间戳代表最新版本。 删除数据:插入带有删除标记的行进入,相当于把整个行键所在的行删了。 小结:hbas...
2013-6-7
8:51:00
24
MapReduce 编程模型在日志分析方面的应用
日志分析往往是商业智能的基础,而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce 处理数据的有效性为日志分析提供了可靠的后盾。 本文将以对访问网页用户的日志进行分析,进而挖掘出用户兴趣点这一完整流程为例,详细解释 MapReduce 模型的对应实现,涵盖在 MapReduce 编程中对于特殊问题的处理技巧,比如机器学习算法、排序算法、索引机制、连接机制等。文章分三部分展开:首先介绍 MapReduce 编程模型,对其原理、对任务处理流程以及适用情况进行介绍;接下来描述了日志分...
2013-4-8
17:16:00
25
chakey的博客 - Hadoop分类文章列表 - ITeye技术网站
配置hadoop使用lzo对中间数据进行压缩 hadoop作业reduce过程调优使用到的参数笔记 hadoop作业map过程调优使用到的参数笔记 修改Hadoop集群的备份数 基于Hadoop的一些工具一句话介绍 ...
2013-3-15
14:38:58
26
Blur 上手 - 建于Hadoop 和 Lucene上的搜索工具
Blur是一个新的Apache 2.0许可的软件项目,提供了建于Hadoop和Lucene之上一个搜索功能。elasticsearch和Solr已经存在,为什么建立新的东西?虽然这些项目运作良好,不过他们没有与一个坚实的Hadoop生态系统集成。Blur始建专门针对大数据,从一开始考虑到可扩展性,冗余和性能,同时利用Hadoop堆...
2012-4-26
14:08:15
27
Hadoop的五个典型应用场景
Hadoop作为大数据存储及计算领域的一颗明星,目前已经得到越来越广泛的应用。下面PPT主要分析了Hadoop的一些典型应用场景,并对其进行了深入分析,主要包括下面几个方面: 日志处理: Hadoop擅长这个 抓住本拉登:并行计算 ETL: 每个人几乎都在做ETL(Extract-Transform-Load)工作Netezza关于使用Hadoop做ETL任务的看法) 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase...
2011-11-11
21:54:12
28
淘宝系统的数据量及Hadoop架构
近日,由中科院计算所主办的“Hadoop 中国2010云计算大会”在北京召开。淘宝网作为国内最大的Hadoop应用商之一赞助与参与了这次会议。下面是ppt的一个节选: 淘宝网目前有会员2亿左右,日均UV高达4000万,日交易量高达10亿元,每天产生大量的数据,所以部署了一系列不同规模的Hadoop集群。淘宝生产所使用的Hadoop集群为目前国内规模最大的Hadoo集群之一。在会议前一天,这个集群的规模是 1.总容量为9.3PB,利用率77.09%。 2.共有1100台机器。 3...
2010-9-11
10:28:05
29
如何安装Nutch和Hadoop
Lucene Java, 提供了基于Java的索引和搜索技术. Nutch 是基于Lucene Java 的提供web 搜索应用软件 Hadoop 是被Nutch用来的分布式计算平台. Lucy 是Lucene Java开放的C的接口, with Perl and Ruby bindings. Solr 是一个基于Lucene建立的高性能搜索服务器, 有XML/HTTP 和JSON/Python/Ruby APIs, 关键字高亮, 结果中搜索, 缓存, 复制, 和...
2007-8-13
12:11:28

<<上篇 1 2