Spark:一个高效的分布式计算系统
- - IT技术博客大学习标签: Spark 分布式. Spark与Hadoop的对比. Spark的中间数据放到内存中,对于迭代运算效率更高. Spark更适合于迭代运算比较多的ML和DM运算. 因为在Spark里面,有RDD的抽象概念. Spark比Hadoop更通用. Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作.
Apache 软件基金会今天宣布,Spark 项目已从孵化器毕业,成为 Apache 软件基金会的一个顶级项目。
Spark 是一个高效的分布式计算系统,发源于美国加州大学伯克利分校 AMPLab 的集群计算平台。
Spark 被称为“Hadoop 的瑞士军刀”,拥有非凡的速度和易用性。Spark 立足于内存计算,相比 Hadoop MapReduce,Spark 在性能上要高 100 倍,而且 Spark 提供了比 Hadoop 更上层的 API,同样的算法在 Spark 中实现往往只有 Hadoop 的1/10 或者1/100 的长度。
目前 Spark 在全球已有广泛的应用,其中包括阿里巴巴、Cloudera、Databricks、IBM、Intel、雅虎等。
Spark 自 2013 年 6 月进入 Apache 的孵化器以来,已经有来自 25 个组织的 120 多位开发者参与贡献。
Spark 项目官网: http://spark.apache.org/
Via Apache