X-RIME: 基于Hadoop的开源大规模社交网络分析工具

- - 并行实验室 | Parallel Labs

文 / 陈冠诚，史巨伟，杨博（IBM中国研究院)，杨寅（人民搜索）. 随着互联网的快速发展，涌现出了一大批以Facebook，Twitter，人人，微博等为代表的新型社交网站. 这些网站用户数量的迅速增长使得海量的用户数据不断被产生出来，而如何有效地对这些海量的用户数据进行社交网络分析（Social Network Analysis）正成为一个越来越热门的问题.

分布式计算开源框架Hadoop入门实践

- - ITeye博客

一、分布式计算开源框架Hadoop实践. 在 SIP项目设计的过程中，对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计，在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到. 但是由于统计的内容暂时还是十分简单，所以就采用Memcache作为计数器，结合MySQL就完成了访问控制以及统计的工作.

Kylin：基于Hadoop的开源数据仓库OLAP分析引擎

- - 标点符

Kylin是一个开源、分布式的OLAP分析引擎，它由eBay公司开发，并且基于Hadoop提供了SQL接口和OLAP接口，能够支持TB到PB级别的数据量. OLAP即联机分析处理，它能够帮助分析人员、管理人员或执行人员从多角度快速、一致、交互地存取信息和更加深入的了解信息. OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求.

为你的 Hadoop 集群选择合适的硬件 - 技术翻译 - 开源中国社区

- -

for Hadoop) Cluster选择硬件. 选择机器配置类型的第一步就是理解你的运维团队已经在管理的硬件类型. 在购买新的硬件设备时，运维团队经常根据一定的观点或者强制需求来选择，并且他们倾向于工作在自己业已熟悉的平台类型上. Hadoop不是唯一的从规模效率上获益的系统. 再一次强调，作为更通用的建议，如果集群是新建立的或者你并不能准确的预估你的极限工作负载，我们建议你选择均衡的硬件类型.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上

Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：. 采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）. 本文安排如下，第二节介绍Hadoop Streaming的原理，第三节介绍Hadoop Streaming的使用方法，第四节介绍Hadoop Streaming的程序编写方法，在这一节中，用C++、C、shell脚本和python实现了WordCount作业，第五节总结了常见的问题.

Hadoop使用（一）

- Pei - 博客园-首页原创精华区

Hadoop使用主/从（Master/Slave）架构，主要角色有NameNode，DataNode，secondary NameNode，JobTracker，TaskTracker组成. 其中NameNode，secondary NameNode，JobTracker运行在Master节点上，DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本

我在使用Hadoop编写MapReduce程序时，遇到了一些问题，通过在Google上查询资料，并结合自己对Hadoop的理解，逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的，简单说来，这些类型必须支持Hadoop的序列化. 为了提高序列化的性能，Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型，如IntWritable，LongWritable，并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu's home

TaskScheduler，顾名思义，就是MapReduce中的任务调度器. 在MapReduce中，JobTracker接收JobClient提交的Job，将它们按InputFormat的划分以及其他相关配置，生成若干个Map和Reduce任务. 然后，当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时，JobTracker就会向其分派任务.

HADOOP安装

- - OracleDBA Blog---三少个人自留地

最近有时间看看hadoop的一些东西，而且在测试的环境上做了一些搭建的工作. 首先，安装前需要做一些准备工作. 使用一台pcserver作为测试服务器，同时使用Oracle VM VirtualBox来作为虚拟机的服务器. 新建了三个虚拟机以后，安装linux，我安装的linux的版本是redhat linux 5.4 x64版本.

Hadoop Corona介绍

- - 董的博客

Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明. 网址: http://dongxicheng.org/hadoop-corona/hadoop-corona/. Hadoop Corona是facebook开源的下一代MapReduce框架. 其基本设计动机和Apache的YARN一致，在此不再重复，读者可参考我的这篇文章 “下一代Apache Hadoop MapReduce框架的架构”.

X-RIME: 基于Hadoop的开源大规模社交网络分析工具

1. X-RIME架构介绍

2. X-RIME 数据模型的设计原则

2.1 采用邻接矩阵还是邻接表

2.2 边的表现形式

2.3 额外的承载信息

2.4 比较器

2.5 效率问题

3. X-RIME使用介绍

4. 总结

参考文献

相关日志

相关 [rime hadoop 开源] 推荐：