Sector/Sphere 比hadoop快2-4倍

标签: sector sphere hadoop | 发表时间:2013-02-08 15:25 | 作者:comaple
出处:http://blog.csdn.net

Sector/Sphere

High Performance Distributed File System and Parallel Data Processing Engine

高性能分布式文件系统和并行数据处理引擎

Sector/Sphere supports distributed data storage, distribution, and processing over large clusters of commodity computers, either within a data center or across multiple data centers. Sector is a high performance, scalable, and secure distributed file system. Sphere is a high performance parallel data processing engine that can process Sector data files on the storage nodes with very simple programming interfaces.

sector/sphere 支持分布式数据存储,基于大数据的分布式处理和常规计算,数据可以基于一个或者多个数据中心。sector是一个高性能,可扩展并且安全的分布式文件系统。sphere是一个高性能并行处理引擎,他可以处理存储在sector节点上得数据文件并且实现接口很简单。

Why Sector/Sphere?     为什么要用?

High Performance. Sector and Sphere are highly optimized for data intensive applications. Sphere supports massive parallel in-storage data processing, supported by Sector's unique application-aware data placement mechanism. In our benchmarks, Sphere runs constantly 2 - 4 times faster than Hadoop MapReduce (see benchmark).

高性能: sector和sphere 是经过优化来的数据敏感的应用。sphere支持大数据并行处理,且只识别sector存储的数据。sphere的计算速度通常比hadoop的MapReduce框架快出2-4倍。

WAN Support. Sector is one of the few file systems that can effectively support multiple data centers across wide area networks. Sector uses UDT to enable high speed data transfer, while its data placement strategy can make Sector effectively work as a content distribution network over WAN.

wan支持,sector 是一个极少数的可以高效支持存在于网络中的多数据中心的文件系统。sector使用UDT来提高数据的传输速度,所以他的数据存储策略能够使得sector高效的工作通过wan。


Software Level Fault Tolerance. Sector does not require hardware RAID for reliability; instead, data is automatically replicated in Sector for high reliability and availability. Meanwhile, both Sector slaves and masters can be removed and inserted at run time. Sector also supports multiple active masters for high performance and availability.

软件级容错机制, sector不需要硬件RAID保证稳定性,相反数据在sector间自动备份保证了高可用性和高稳定性,同时支持sector主节点或从节点热插拔。sector还支持多活跃masters节点来确保性能和可用性。


Rule-based Data Management. For each file, users can control its replication factor, replication distance, and replication locations (when necessary). The rules can be changed at run time.

基于规则的数据管理策略, 用户可以对每个文件的复制因子,复制距离,和复制地址(当需要的时候)的可控配置。这些规则可以在运行时来改变。





作者:comaple 发表于2013-2-8 15:25:00 原文链接
阅读:0 评论:0 查看评论

相关 [sector sphere hadoop] 推荐:

Sector/Sphere 比hadoop快2-4倍

- - CSDN博客云计算推荐文章
高性能分布式文件系统和并行数据处理引擎. Sector/Sphere supports distributed data storage, distribution, and processing over large clusters of commodity computers, either within a data center or across multiple data centers.

Google Play Services 2.0增加Maps与Photo Sphere API

- - InfoQ cn
近日,Google发布了针对Android应用的 Play Services 2.0,新增了 Maps与 Photo Sphere APIs,可以用在运行在Android 2.2+上的所有应用. 开发者可以通过Maps API将Android Google Maps的几乎全部功能都集成到移动应用中,包括连接Google Maps Service、下载与显示瓷贴、摇动与缩放控件和手势,但有 两个例外:地图瓷贴不包含个性化内容,如个性化小图标,同时并不是地图上的所有图标都是可以点击的.

开源智控方案3天众筹爆表——Ninja Sphere

- - 雷锋网
Ninja Blocks是一家专注于智能家居开源硬件的创业公司. 此前他们曾经推过一套Ninja Blocks Kit,家居智能化的开源方案,面向的是开发者. 这周他们又推出了这一方案的二代版本,3天就筹到了预设筹资金额. Ninja的二代产品叫作Sphere,包含了一个网关、若干位置标签(低功耗蓝牙)和智能插座.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.

Hadoop使用(一)

- Pei - 博客园-首页原创精华区
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成. 其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本
我在使用Hadoop编写MapReduce程序时,遇到了一些问题,通过在Google上查询资料,并结合自己对Hadoop的理解,逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的,简单说来,这些类型必须支持Hadoop的序列化. 为了提高序列化的性能,Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型,如IntWritable,LongWritable,并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu's home
TaskScheduler,顾名思义,就是MapReduce中的任务调度器. 在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务. 然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务.

HADOOP安装

- - OracleDBA Blog---三少个人自留地
最近有时间看看hadoop的一些东西,而且在测试的环境上做了一些搭建的工作. 首先,安装前需要做一些准备工作. 使用一台pcserver作为测试服务器,同时使用Oracle VM VirtualBox来作为虚拟机的服务器. 新建了三个虚拟机以后,安装linux,我安装的linux的版本是redhat linux 5.4 x64版本.

Hadoop Corona介绍

- - 董的博客
Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/hadoop-corona/hadoop-corona/. Hadoop Corona是facebook开源的下一代MapReduce框架. 其基本设计动机和Apache的YARN一致,在此不再重复,读者可参考我的这篇文章 “下一代Apache Hadoop MapReduce框架的架构”.

Hadoop RPC机制

- - 企业架构 - ITeye博客
RPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议. Hadoop底层的交互都是通过 rpc进行的. 例如:datanode和namenode 、tasktracker和jobtracker、secondary namenode和namenode之间的通信都是通过rpc实现的.