Spark编程指南笔记

Master URL	含义
`loca`l	默认值，使用一个 Worker 线程本地化运行(完全不并行)
`local[K]`	使用 K 个 Worker 线程本地化运行（理想情况下，K 应该根据运行机器的 CPU 核数设定）
`spark://HOST:PORT`	连接到指定的 Spark 单机版集群 master 进程所在的主机和端口，端口默认是7077
`mesos://HOST:PORT`	连接到指定的 Mesos 集群。host 参数是Moses master的hostname。端口默认是5050

转换	含义
`map(func)`	返回一个新分布式数据集，由每一个输入元素经过func函数转换后组成
`filter(func)`	返回一个新数据集，由经过func函数计算后返回值为 true 的输入元素组成
`flatMap(func)`	类似于 map，但是每一个输入元素可以被映射为0或多个输出元素，因此 func 应该返回一个序列
`mapPartitions(func)`	类似于 map，但独立地在 RDD 的每一个分块上运行，因此在类型为 T 的 RDD 上运行时，func 的函数类型必须是 `Iterator[T] ⇒ Iterator[U]`
`mapPartitionsWithSplit(func)`	类似于 mapPartitions, 但 func 带有一个整数参数表示分块的索引值。因此在类型为 T的RDD上运行时，func 的函数类型必须是 `(Int, Iterator[T]) ⇒ Iterator[U]`
`sample(withReplacement,fraction, seed)`	根据 fraction 指定的比例，对数据进行采样，可以选择是否用随机数进行替换，seed 用于指定随机数生成器种子
`union(otherDataset)`	返回一个新的数据集，新数据集是由源数据集和参数数据集联合而成
`distinct([numTasks]))`	返回一个包含源数据集中所有不重复元素的新数据集
`groupByKey([numTasks])`	在一个键值对的数据集上调用，返回一个 `(K，Seq[V])`对的数据集。注意：默认情况下，只有8个并行任务来做操作，但是你可以传入一个可选的 numTasks 参数来改变它
`reduceByKey(func, [numTasks])`	在一个键值对的数据集上调用时，返回一个键值对的数据集，使用指定的 reduce 函数，将相同 key 的值聚合到一起。类似 groupByKey，reduce 任务个数是可以通过第二个可选参数来配置的
`sortByKey([ascending], [numTasks])`	在一个键值对的数据集上调用，K 必须实现 `Ordered` 接口，返回一个按照 Key 进行排序的键值对数据集。升序或降序由 ascending 布尔参数决定
`join(otherDataset, [numTasks])`	在类型为（K,V)和（K,W) 类型的数据集上调用时，返回一个相同key对应的所有元素对在一起的 `(K, (V, W))` 数据集
`cogroup(otherDataset, [numTasks])`	在类型为（K,V)和（K,W) 的数据集上调用，返回一个 `(K, Seq[V], Seq[W])` 元组的数据集。这个操作也可以称之为 groupwith
`cartesian(otherDataset)`	笛卡尔积，在类型为 T 和 U 类型的数据集上调用时，返回一个 (T, U) 对数据集(两两的元素对)
`pipe(command, [envVars])`	对 RDD 进行管道操作
`coalesce(numPartitions)`	减少 RDD 的分区数到指定值。在过滤大量数据之后，可以执行此操作
`repartition(numPartitions)`	重新给 RDD 分区
`repartitionAndSortWithinPartitions(partitioner)`	重新给 RDD 分区，并且每个分区内以记录的 key 排序

动作	含义
`reduce(func)`	通过函数 func 聚集数据集中的所有元素。这个功能必须可交换且可关联的，从而可以正确的被并行执行。
`collect()`	在驱动程序中，以数组的形式，返回数据集的所有元素。这通常会在使用 filter 或者其它操作并返回一个足够小的数据子集后再使用会比较有用。
`count()`	返回数据集的元素的个数。
`first()`	返回数据集的第一个元素，类似于 `take(1)`
`take(n)`	返回一个由数据集的前 n 个元素组成的数组。注意，这个操作目前并非并行执行，而是由驱动程序计算所有的元素
`takeSample(withReplacement,num, seed)`	返回一个数组，在数据集中随机采样 num 个元素组成，可以选择是否用随机数替换不足的部分，seed 用于指定的随机数生成器种子
`takeOrdered(n, [ordering])`	返回自然顺序或者自定义顺序的前 n 个元素
`saveAsTextFile(path)`	将数据集的元素，以 textfile 的形式，保存到本地文件系统，HDFS或者任何其它 hadoop 支持的文件系统。对于每个元素，Spark 将会调用 `toString` 方法，将它转换为文件中的文本行
`saveAsSequenceFile(path)` (Java and Scala)	将数据集的元素，以 Hadoop sequencefile 的格式保存到指定的目录下
`saveAsObjectFile(path)` (Java and Scala)	将数据集的元素，以 Java 序列化的方式保存到指定的目录下
`countByKey()`	对(K,V)类型的 RDD 有效，返回一个 (K，Int) 对的 Map，表示每一个key对应的元素个数
`foreach(func)`	在数据集的每一个元素上，运行函数 func 进行更新。这通常用于边缘效果，例如更新一个累加器，或者和外部存储系统进行交互，例如HBase

存储级别	意义
`MEMORY_ONLY`	默认的级别，将 RDD 作为反序列化的的对象存储在 JVM 中。如果不能被内存装下，一些分区将不会被缓存，并且在需要的时候被重新计算
`MEMORY_AND_DISK`	将 RDD 作为反序列化的的对象存储在 JVM 中。如果不能被与内存装下，超出的分区将被保存在硬盘上，并且在需要时被读取
`MEMORY_ONLY_SER`	将 RDD 作为序列化的的对象进行存储（每一分区占用一个字节数组）。通常来说，这比将对象反序列化的空间利用率更高，尤其当使用fast serializer,但在读取时会比较占用CPU
`MEMORY_AND_DISK_SER`	与 `MEMORY_ONLY_SER` 相似，但是把超出内存的分区将存储在硬盘上而不是在每次需要的时候重新计算
`DISK_ONLY`	只将 RDD 分区存储在硬盘上
`MEMORY_ONLY_2`、 `MEMORY_AND_DISK_2`等	与上述的存储级别一样，但是将每一个分区都复制到两个集群结点上
`OFF_HEAP`	开发中

- - JavaChen's Blog

本文是参考Spark官方编程指南（Spark 版本为1.2）整理出来的学习笔记，主要是用于加深对 Spark 的理解，并记录一些知识点. 每一个 Spark 的应用，都是由一个驱动程序构成，它运行用户的 main 函数，在一个集群上执行各种各样的并行操作. Spark 提出的最主要抽象概念是弹性分布式数据集，它是一个有容错机制（划分到集群的各个节点上）并可以被并行操作的元素集合.

Spark概览

- - 简单文本

Spark具有先进的DAG执行引擎，支持cyclic data flow和内存计算. 因此，它的运行速度，在内存中是Hadoop MapReduce的100倍，在磁盘中是10倍. 这样的性能指标，真的让人心动啊. Spark的API更为简单，提供了80个High Level的操作，可以很好地支持并行应用.

我本人是类似Hive平台的系统工程师，我对MapReduce的熟悉程度是一般，它是我的底层框架. 我隔壁组在实验Spark，想将一部分计算迁移到Spark上. 年初的时候，看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性. 但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了.

Spark迷思

- - ITeye博客

目前在媒体上有很大的关于Apache Spark框架的声音，渐渐的它成为了大数据领域的下一个大的东西. 证明这件事的最简单的方式就是看google的趋势图：. 上图展示的过去两年Hadoop和Spark的趋势. Spark在终端用户之间变得越来越受欢迎，而且这些用户经常在网上找Spark相关资料. 这给了Spark起了很大的宣传作用；同时围绕着它的也有误区和思维错误，而且很多人还把这些误区作为银弹，认为它可以解决他们的问题并提供比Hadoop好100倍的性能.

Spark 优化

- - CSDN博客推荐文章

提到Spark与Hadoop的区别，基本最常说的就是Spark采用基于内存的计算方式，尽管这种方式对数据处理的效率很高，但也会往往引发各种各样的问题，Spark中常见的OOM等等. 效率高的特点，注定了Spark对性能的严苛要求，那Spark不同程序的性能会碰到不同的资源瓶颈，比如：CPU，带宽、内存.

Spark&Spark性能调优实战

- - CSDN博客互联网推荐文章

Spark特别适用于多次操作特定的数据，分mem-only和mem & disk. 其中mem-only:效率高，但占用大量的内存，成本很高;mem & disk:内存用完后，会自动向磁盘迁移，解决了内存不足的问题，却带来了数据的置换的消费. Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析：.

Mesos上部署spark

- - 开源小站

还是回到之前一直持续的 Mesos话题. 在之前的环节里，我们已经尝试了Mesos的安装，Marathon守护服务以及相对比较主流的Mesos作为Hadoop的资源管理器的实际操作. 这次就说说同属于伯克利出品的Spark. 其实spark最初0.7以前的版本还没有自己的资源管理系统，资源的调度都是通过Mesos来执行的.

Spark容错机制

- - zzm

一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新. 面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源. 因此，Spark选择记录更新的方式. 但是，如果更新粒度太细太多，那么记录更新成本也不低.

beeline 连接SPARK /Hive

- - 开源软件 - ITeye博客

hiveclient所在主机的jdk 1.7_51，hive 0.12和hadoop 2.3.0是从服务器端拷贝过来的，环境变量一切OK. 执行连接报了Invalid URL的错误：. 开始的一段时间都在纠结这个jdbc的URL格式问题，后来在cloudra论坛上找到了一个方法,. 直接调用的jdbc:hive2的驱动测试是正常的，证明CLASSPATH等环境变量没有问题.

Spark性能调优

- - zzm

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整，本文主要分享的也是这两方面内容. Spark提供了一些基本的Web监控页面，对于日常监控十分有用. http://master:4040（默认端口是4040，可以通过spark.ui.port修改）可获得这些信息：（1）stages和tasks调度情况；（2）RDD大小及内存使用；（3）系统环境信息；（4）正在执行的executor信息.

Spark编程指南笔记

1. 一些概念

2. 编写程序

初始化 Spark

运行代码

3. 弹性分布式数据集

3.1 并行集合

3.2 外部数据源

3.3 RDD 操作

测试

常见的转换

常用的动作

3.4 RDD持久化

4. 共享变量

5. 参考文章

相关 [spark 编程笔记] 推荐：