分布式计算系统 Spark 成为 Apache 顶级项目

标签：分布计算系统 | 发表时间：2014-02-28 11:50 | 作者：

出处：http://news.cnblogs.com/

Apache 软件基金会今天宣布，Spark 项目已从孵化器毕业，成为 Apache 软件基金会的一个顶级项目。

Spark 是一个高效的分布式计算系统，发源于美国加州大学伯克利分校 AMPLab 的集群计算平台。

Spark 被称为“Hadoop 的瑞士军刀”，拥有非凡的速度和易用性。Spark 立足于内存计算，相比 Hadoop MapReduce，Spark 在性能上要高 100 倍，而且 Spark 提供了比 Hadoop 更上层的 API，同样的算法在 Spark 中实现往往只有 Hadoop 的1/10 或者1/100 的长度。

目前 Spark 在全球已有广泛的应用，其中包括阿里巴巴、Cloudera、Databricks、IBM、Intel、雅虎等。

Spark 自 2013 年 6 月进入 Apache 的孵化器以来，已经有来自 25 个组织的 120 多位开发者参与贡献。

Spark 项目官网： http://spark.apache.org/

相关 [分布计算系统] 推荐：

Spark：一个高效的分布式计算系统

- - IT技术博客大学习

标签： Spark 分布式. Spark与Hadoop的对比. Spark的中间数据放到内存中，对于迭代运算效率更高. Spark更适合于迭代运算比较多的ML和DM运算. 因为在Spark里面，有RDD的抽象概念. Spark比Hadoop更通用. Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作.

分布式计算系统 Spark 成为 Apache 顶级项目

- - 博客园_新闻

Apache 软件基金会今天宣布，Spark 项目已从孵化器毕业，成为 Apache 软件基金会的一个顶级项目. Spark 是一个高效的分布式计算系统，发源于美国加州大学伯克利分校 AMPLab 的集群计算平台. Spark 被称为“Hadoop 的瑞士军刀”，拥有非凡的速度和易用性. Spark 立足于内存计算，相比 Hadoop MapReduce，Spark 在性能上要高 100 倍，而且 Spark 提供了比 Hadoop 更上层的 API，同样的算法在 Spark 中实现往往只有 Hadoop 的1/10 或者1/100 的长度.

专访QQ大数据团队，谈分布式计算系统开发

- - 互联网 - ITeye博客

NoSQL是笔者最早接触大数据领域的相关知识，因此在大家都在畅谈Hadoop、Spark时，笔者仍然保留着NoSQL博文的阅读习惯. 在偶尔阅读一篇Redis博文过程中，笔者发现了. jacksu的个人博客，并在其中发现了大量的分布式系统操作经验，从而通过他的引荐了解了QQ成立之初后台3个基础团队之一的QQ运营组，这里我们一起走进.

Hadoop与分布式计算

- 透明 - 丕子

写本文由leftnoteasy发布于http://leftnoteasy.cnblogs.com 本文可以被全部或者部分的使用，但请注明出处，如果有问题，可以联系wheeleast (at) gmail.com, 也可以加作者的新浪微博：http://weibo.com/leftnoteasy. 很久没有写写博客了，之前主要是换工作，耽误了很多的时间，让人也变得懒散，不想花大时间来写东西.

分布式缓存系统 Xixibase

- Le - 开源中国社区最新软件

Xixibase是一个高性能，跨平台的分布式缓存系统. Xixibase server 采用 C++ 实现，底层网络库采用的是Boost Asio. Xixibase 主要特点： 1. 实现'Local Cache'功能, 当客户端打开'Local Cache'选项, 客户端可以将数据同时存储在Server 端和本地，并且保证本地数据和Server 端的数据的一致性.

分布式检索系统 ElasticSearch

- - 丕子

ElasticSearch最近发展不错，github等都用它，可以关注I下. ElasticSearch是分布式,REST风格,搜索和分析系统. 具有实时数据，实时分析，分布式，高可用性，多租户，全文搜索，面向文档，冲突管理，自由模式，rest风格API，每个操作的持久性，Apache 2的开源许可证，基于Apache Lucene之上的特点.

分布式消息系统：Kafka

- - 标点符

Kafka是分布式发布-订阅消息系统. 它最初由LinkedIn公司开发，之后成为Apache项目的一部分. Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务. 在大数据系统中，常常会碰到一个问题，整个大数据是由各个子系统组成，数据需要在各个子系统中高性能，低延迟的不停流转. 传统的企业消息系统并不是非常适合大规模的数据处理.

分布式系统介绍-PNUTS

- - CSDN博客推荐文章

PNUTS是Yahoo!的分布式数据库系统，支持地域上分布的大规模并发操作. 它根据主键的范围区间或者其哈希值的范围区间将表拆分为表单元（Tablet），多个表单元存储在一个服务器上. 一个表单元控制器根据服务器的负载情况，进行表单元的迁移和拆分. 每条记录的数据都没有固定的模式（采用JSON格式的文本）.

Ganglia：分布式监控系统

- - CSDN博客移动开发推荐文章

1 环境安装配置. 1.1 依赖软件下载. Ganglia是伯克利开发的一个集群监控软件. 可以监视和显示集群中的节点的各种状态信息，比如如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，同时可以将历史数据以曲线方式通过php页面呈现. 而ganglia又依赖于一个web服务器用来显示集群状态，用rrdtool来存储数据和生成曲线图，需要xml解析因此需要expat，配置文件解析需要libconfuse.

kafka分布式消息系统

- - CSDN博客云计算推荐文章

Kafka[1]是linkedin用于日志处理的分布式消息队列，linkedin的日志数据容量大，但对可靠性要求不高，其日志数据主要包括用户行为（登录、浏览、点击、分享、喜欢）以及系统运行日志（CPU、内存、磁盘、网络、系统及进程状态）. 当前很多的消息队列服务提供可靠交付保证，并默认是即时消费（不适合离线）.