Spark和RDD模型研究

- - CSDN博客云计算推荐文章

现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语，使用户不用操心任务分发和错误容忍，非常容易地编写出并行计算程序. 然而这些框架都缺乏对分布式内存的抽象和支持，使其在某些应用场景下不够高效和强大. RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景：.

Spark RDD弹性表现和来源

- - 开源软件 - ITeye博客

hadoop 的MapReduce是基于数据集的,位置感知，容错负载均衡. 基于数据集的处理：从物理存储上加载数据，然后操作数据，然后写入物理存储设备；. 基于数据集的操作不适应的场景：. 重点是：基于数据流的方式不能够复用曾经的结果或者中间计算结果;. spark RDD是基于工作集的. 工作流和工作集的共同特点：位置感知，自动容错，负载均衡等.

Spark算子：RDD键值转换操作(4)–cogroup、join – lxw的大数据田地

- -

关键字：Spark算子、Spark RDD键值转换、cogroup、join. cogroup相当于SQL中的全外关联full outer join，返回左右RDD中的记录，关联不上的为空. 参数numPartitions用于指定结果的分区数. 参数partitioner用于指定分区函数. ##参数为3个RDD示例略，同上.

Spark常用函数讲解之键值RDD转换 - MOBIN - 博客园

- -

RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集. Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作.

Spark架构模型介绍

- - ITeye博客

spark应用作为一系列独立的进程运行在集群上，通过SparkContext来协调，这个对象一般在我们的main程序里面，通常称为驱动程序，. 特别的，为了能够在集群上运行，SparkContext对象支持集成了大多数集群调度比如，Spark自己的standalone ，Hadoop2.x的Yarn.

Spark概览

- - 简单文本

Spark具有先进的DAG执行引擎，支持cyclic data flow和内存计算. 因此，它的运行速度，在内存中是Hadoop MapReduce的100倍，在磁盘中是10倍. 这样的性能指标，真的让人心动啊. Spark的API更为简单，提供了80个High Level的操作，可以很好地支持并行应用.

我本人是类似Hive平台的系统工程师，我对MapReduce的熟悉程度是一般，它是我的底层框架. 我隔壁组在实验Spark，想将一部分计算迁移到Spark上. 年初的时候，看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性. 但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了.

Spark迷思

- - ITeye博客

目前在媒体上有很大的关于Apache Spark框架的声音，渐渐的它成为了大数据领域的下一个大的东西. 证明这件事的最简单的方式就是看google的趋势图：. 上图展示的过去两年Hadoop和Spark的趋势. Spark在终端用户之间变得越来越受欢迎，而且这些用户经常在网上找Spark相关资料. 这给了Spark起了很大的宣传作用；同时围绕着它的也有误区和思维错误，而且很多人还把这些误区作为银弹，认为它可以解决他们的问题并提供比Hadoop好100倍的性能.

Spark 优化

- - CSDN博客推荐文章

提到Spark与Hadoop的区别，基本最常说的就是Spark采用基于内存的计算方式，尽管这种方式对数据处理的效率很高，但也会往往引发各种各样的问题，Spark中常见的OOM等等. 效率高的特点，注定了Spark对性能的严苛要求，那Spark不同程序的性能会碰到不同的资源瓶颈，比如：CPU，带宽、内存.

Spark&Spark性能调优实战

- - CSDN博客互联网推荐文章

Spark特别适用于多次操作特定的数据，分mem-only和mem & disk. 其中mem-only:效率高，但占用大量的内存，成本很高;mem & disk:内存用完后，会自动向磁盘迁移，解决了内存不足的问题，却带来了数据的置换的消费. Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析：.

信息/RDD	HadoopRDD	FilteredRDD	JoinedRDD
Partitions	每个HDFS块一个分区，组成集合	与父RDD相同	每个Reduce任务一个分区
PreferredLoc	HDFS块位置	无(或询问父RDD)	无
Dependencies	无(父RDD)	与父RDD一对一	对每个RDD进行混排
Iterator	读取对应的块数据	过滤	联接混排的数据
Partitioner	无	无	HashPartitioner

Spark和RDD模型研究

1背景介绍

2 RDD简介

2.1概念

2.2例子

2.3优势

2.4应用场景

3 RDD表现形式

3.1深入RDD

3.2工作原理

3.3混排

3.4宽窄依赖

4内部实现

4.1调度器

4.2解释器集成

4.3内存管理

4.4检查点支持

5高级特性

6参考资料

相关 [spark rdd 模型] 推荐：