谈Hadoop下各技术应用场景

- - 人月神话的BLOG

数据采集和DataFlow. 对于数据采集主要分为三类，即结构化数据库采集，日志和文件采集，网页采集. 对于结构化数据库，采用Sqoop是合适的，可以实现结构化数据库中数据并行批量入库到hdfs存储. 对于网页采集，前端可以采用Nutch，全文检索采用lucense，而实际数据存储最好是入库到Hbase数据库.

Apache的Hadoop是什么. Apache的Hadoop项目™®开发出可靠的，可扩展的，分布式计算的开源软件. Apache的Hadoop的软件库是一个框架，允许大型数据集通过计算机集群使用简单的编程模型，进行分布式处理. 它的设计规模从单一服务器到数千台计算机，每个提供本地计算和存储. 软件库是用来检测和处理应用层失败的，而不是依靠硬件提供高的有效度，因此在计算机集群上提供高度可用性服务，其中每个都有可能会有失败.

论文：Hadoop在Facebook的实时应用

- Adam - NoSQLFan

Facebook在其最新的消息系统中使用了HBase，这已经不是什么新闻了，而HBase与其基础设施HDFS也因此越来越受追捧，下面是Facebook在SIGMOD 2011大会上发表的论文，描述了Hadoop系列工具在Facebook中的应用情况. Facebook为何选择了Hadoop和HBase.

Facebook的Realtime Hadoop及其应用

- Version - 并行实验室 | Parallel Labs

在今年的SIGMOD‘11上，Facebook又发了一篇新paper（点此下载），讲述了它们在提高Hadoop实时性上的工作及其应用. 简单来讲，他们的项目需求主要有：. Elasticity（伸缩性）. High write throughput（高写吞吐量）. Efficient and low-latency strong consistency semantics within a data center（单个data center内高性能、低延迟的强一致性）.

腾讯TDW：大型Hadoop集群应用

- - 服务器运维与网站架构|Linux运维|X研究

PS：TDW是腾讯最大的离线数据处理平台. 本文主要从需求、挑战、方案和未来计划等方面，介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案. TDW（Tencent distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造.

Hadoop之MapReduce程序应用一

- - CSDN博客推荐文章

摘要：MapReduce程序处理专利数据集. 关键词：MapReduce程序专利数据集. 数据源：专利引用数据集cite75_99.txt. （该数据集可以从网址 http://www.nber.org/patents/下载）. 读取专利引用数据集并对它进行倒排. 对于每一个专利，找到那些引用它的专利并进行合并.

hadoop学习（七）WordCount+Block+Split+Shuffle+Map+Reduce技术详解

- - CSDN博客数据库推荐文章

纯干活：通过WourdCount程序示例：详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程. Shuffle过程是MapReduce的核心，集中了MR过程最关键的部分. 要想了解MR，Shuffle是必须要理解的. 了解Shuffle的过程，更有利于我们在对MapReduce job性能调优的工作，以及对MR内部机理有更深一步的了解.

盘点SQL on Hadoop中用到的主要技术

- - 奔跑的兔子

自hive出现之后，经过几年的发展，SQL on Hadoop相关的系统已经百花齐放，速度越来越快，功能也越来越齐全. 本文并不是要去比较所谓“交互式查询哪家强”，而是试图梳理出一个统一的视角，来看看各家系统有哪些技术上相通之处. 考虑到系统使用的广泛程度与成熟度，在具体举例时一般会拿Hive和Impala为例，当然在调研的过程中也会涉及到一些其他系统，如Spark SQL，Presto，TAJO等.

windows 7 with eclipse 下hadoop应用开发环境搭建

- - CSDN博客云计算推荐文章

最近开始着手高校云平台的搭建，前些天做了hadoop集群测试环境的安装与配置的经验分享，这篇文章主要介绍win7 64位下 eclipse4.2 连接远程Redhat Linux 5下hadoop-1.2.0集群开发环境搭建. 1、window 7 64位. 三、安装配置hadoop集群. 四、在Eclipse下安装配置hadoop插件.

理解Hadoop-Hbase原理与应用小结

- - 数据库 - ITeye博客

首先Hbase中的一个“元素”是由行键、列族名、限定符、时间戳唯一标识的并且行键作为数据行在表里的唯一标识，我们只有通过行键来访问列族别无他法. 修改数据：我们先找到要修改的行键把新的数据记录追加到对应的列族中并打上一个新时间戳代表最新版本. 删除数据：插入带有删除标记的行进入，相当于把整个行键所在的行删了.

谈Hadoop下各技术应用场景

相关 [hadoop 技术应用] 推荐：