Spark容错机制

Spark概览

- - 简单文本

Spark具有先进的DAG执行引擎，支持cyclic data flow和内存计算. 因此，它的运行速度，在内存中是Hadoop MapReduce的100倍，在磁盘中是10倍. 这样的性能指标，真的让人心动啊. Spark的API更为简单，提供了80个High Level的操作，可以很好地支持并行应用.

我本人是类似Hive平台的系统工程师，我对MapReduce的熟悉程度是一般，它是我的底层框架. 我隔壁组在实验Spark，想将一部分计算迁移到Spark上. 年初的时候，看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性. 但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了.

Spark迷思

- - ITeye博客

目前在媒体上有很大的关于Apache Spark框架的声音，渐渐的它成为了大数据领域的下一个大的东西. 证明这件事的最简单的方式就是看google的趋势图：. 上图展示的过去两年Hadoop和Spark的趋势. Spark在终端用户之间变得越来越受欢迎，而且这些用户经常在网上找Spark相关资料. 这给了Spark起了很大的宣传作用；同时围绕着它的也有误区和思维错误，而且很多人还把这些误区作为银弹，认为它可以解决他们的问题并提供比Hadoop好100倍的性能.

Spark 优化

- - CSDN博客推荐文章

提到Spark与Hadoop的区别，基本最常说的就是Spark采用基于内存的计算方式，尽管这种方式对数据处理的效率很高，但也会往往引发各种各样的问题，Spark中常见的OOM等等. 效率高的特点，注定了Spark对性能的严苛要求，那Spark不同程序的性能会碰到不同的资源瓶颈，比如：CPU，带宽、内存.

Spark&Spark性能调优实战

- - CSDN博客互联网推荐文章

Spark特别适用于多次操作特定的数据，分mem-only和mem & disk. 其中mem-only:效率高，但占用大量的内存，成本很高;mem & disk:内存用完后，会自动向磁盘迁移，解决了内存不足的问题，却带来了数据的置换的消费. Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析：.

Mesos上部署spark

- - 开源小站

还是回到之前一直持续的 Mesos话题. 在之前的环节里，我们已经尝试了Mesos的安装，Marathon守护服务以及相对比较主流的Mesos作为Hadoop的资源管理器的实际操作. 这次就说说同属于伯克利出品的Spark. 其实spark最初0.7以前的版本还没有自己的资源管理系统，资源的调度都是通过Mesos来执行的.

Spark容错机制

- - zzm

一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新. 面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源. 因此，Spark选择记录更新的方式. 但是，如果更新粒度太细太多，那么记录更新成本也不低.

beeline 连接SPARK /Hive

- - 开源软件 - ITeye博客

hiveclient所在主机的jdk 1.7_51，hive 0.12和hadoop 2.3.0是从服务器端拷贝过来的，环境变量一切OK. 执行连接报了Invalid URL的错误：. 开始的一段时间都在纠结这个jdbc的URL格式问题，后来在cloudra论坛上找到了一个方法,. 直接调用的jdbc:hive2的驱动测试是正常的，证明CLASSPATH等环境变量没有问题.

Spark性能调优

- - zzm

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整，本文主要分享的也是这两方面内容. Spark提供了一些基本的Web监控页面，对于日常监控十分有用. http://master:4040（默认端口是4040，可以通过spark.ui.port修改）可获得这些信息：（1）stages和tasks调度情况；（2）RDD大小及内存使用；（3）系统环境信息；（4）正在执行的executor信息.

Spark 任务调度

- - IT瘾-dev

Spark的核心是基于RDD来实现的，Spark任务调度就是如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，然后将每个Stage中的任务（Task）分发到指定的节点去运行得到最终的结果. Application：用户编写的Spark应用程序，由一个或多个Job组成.

Spark容错机制

引入

Lineage机制

Lineage简介

两种依赖关系

依赖关系的特性

容错原理

Checkpoint机制

相关 [spark] 推荐：

Spark概览

Spark与Mapreduce？

Spark迷思

Spark 优化

Spark&Spark性能调优实战

Mesos上部署spark

Spark容错机制

beeline 连接SPARK /Hive

Spark性能调优

Spark 任务调度

相关文章

订阅