Spark：一个高效的分布式计算系统

- - IT技术博客大学习

标签： Spark 分布式. Spark与Hadoop的对比. Spark的中间数据放到内存中，对于迭代运算效率更高. Spark更适合于迭代运算比较多的ML和DM运算. 因为在Spark里面，有RDD的抽象概念. Spark比Hadoop更通用. Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作.

最开始关注Spark，是在csdn首页上看到一篇文件《Spark核心开发者：性能超Hadoop百倍，算法实现仅有其1/10或1/100》的，看着标题确实感觉比较年逼的. 后来稍微研究了一下，其实发现，这个描述有点问题. Spark是一个基于内存的纯计算框架，而hadoop是包括计算框架的mapreduce和分布式存储hdfs，所以应该描述为Spark性能超Hadoop的mapreduce计算性能百倍.

分布式计算系统 Spark 成为 Apache 顶级项目

- - 博客园_新闻

Apache 软件基金会今天宣布，Spark 项目已从孵化器毕业，成为 Apache 软件基金会的一个顶级项目. Spark 是一个高效的分布式计算系统，发源于美国加州大学伯克利分校 AMPLab 的集群计算平台. Spark 被称为“Hadoop 的瑞士军刀”，拥有非凡的速度和易用性. Spark 立足于内存计算，相比 Hadoop MapReduce，Spark 在性能上要高 100 倍，而且 Spark 提供了比 Hadoop 更上层的 API，同样的算法在 Spark 中实现往往只有 Hadoop 的1/10 或者1/100 的长度.

Spark：比Hadoop更强大的分布式数据计算项目

- - 标点符

Spark是一个由加州大学伯克利分校（UC Berkeley AMP）开发的一个分布式数据快速分析项目. 它的核心技术是弹性分布式数据集(Resilient distributed datasets)，提供了比Hadoop更加丰富的MapReduce模型，可以快速在内存中对数据集进行多次迭代，来支持复杂的数据挖掘算法和图计算算法.

Spark高效的分布式管理

- - 企业架构 - ITeye博客

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法.

LSH Spark 千万级用户/Item 相似度计算 cosine-lsh-join-spark: Approximate Nearest Neighbors in Spark

- -

This family of algorithms are very fast but might not give the exact solution and are hence called approximate nearest neighbours (ANN). This is an interface to find the k nearest neighbors from a data set for every other object in the same data set.

Kafka+Spark Streaming+Redis实时计算整合实践

- - 简单之美

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性. 这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算.

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

- - lxw的大数据田地

本文想记录和表达的东西挺多的，一时想不到什么好的标题，所以就用上面的关键字作为标题了. 在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once. 本文以Kafka–>Spark Streaming–>Redis为例，一方面说明一下如何做到Exactly-once，另一方面说明一下我是如何计算实时去重指标的.

Spark的速度快是以丧失计算结果正确性为代价的

- - Changming

但是它不保证它算出的值是对的，哪怕你要做的只是简单的整数累加. Spark最著名的一篇论文是：《Spark: Cluster Computing with Working Sets》. 当你读它的时候你需要明白：文中代码不保证计算结果是正确的. 具体来说，它的Logistic Regression的代码在map阶段用到了accumulator.

【实践】Spark 协同过滤ALS之Item2Item相似度计算优化 - CSDN博客

- -

CF召回优化，自之前第一版自己实现的基于item的协同过滤算法. http://blog.csdn.net/dengxing1234/article/details/76122465，考虑到用户隐型评分的. 稀疏性问题，所以尝试用Spark ml包（非mllib）中的ALS算法的中间产物item的隐性向量，进行进一步item到item的余弦相似度计算.

Spark：一个高效的分布式计算系统

概述

什么是Spark

Spark与Hadoop的对比

Spark与Hadoop的结合

Spark的适用场景

运行模式

Spark生态系统

在业界的使用

Spark核心概念

Resilient Distributed Dataset (RDD)弹性分布数据集

RDD的生成

RDD的转换与操作

Lineage(血统)

容错

资源管理与作业调度

编程接口

Scala

Java

Python

使用示例

Standalone模式

yarn模式

使用Spark-shell

编写Driver程序

相关 [spark 分布计算] 推荐：