Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

Spark性能优化指南——基础篇

- - 美团点评技术团队

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一. Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛. 在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark. 大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高.

Spark性能优化指南——高级篇

- - 美团点评技术团队

继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题. 有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多. 数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能.

Spark性能优化——和shuffle搏斗

- - 四火的唠叨

Spark的性能分析和调优很有意思，今天再写一篇. 主要话题是shuffle，当然也牵涉一些其他代码上的小把戏. 以前写过一篇文章，比较了几种不同场景的性能优化，包括portal的性能优化，web service的性能优化，还有Spark job的性能优化. Spark的性能优化有一些特殊的地方，比如实时性一般不在考虑范围之内，通常我们用Spark来处理的数据，都是要求异步得到结果的数据；再比如数据量一般都很大，要不然也没有必要在集群上操纵这么一个大家伙，等等.

实用教程|Spark性能优化之道——解决Spark数据倾斜

- - IT瘾-geek

实用教程|Spark性能优化之道——解决Spark数据倾斜. 2017-03-16 11:31 浏览次数：108. 为何要处理数据倾斜（Data Skew）. 对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜. 数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈.

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

- - IT瘾-bigdata

本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等. 为何要处理数据倾斜（Data Skew）. 对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜.

HBase最佳实践－写性能优化策略 – 有态度的HBase/Spark/BigData

- -

上一篇文章主要介绍了HBase读性能优化的基本套路，本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能. 和读相比，HBase写数据流程倒是显得很简单：数据先顺序写入HLog，再写入对应的缓存Memstore，当Memstore中数据大小达到一定阈值（128M）之后，系统会异步将Memstore中数据flush到HDFS形成小文件.

HBase最佳实践－读性能优化策略 – 有态度的HBase/Spark/BigData

- -

任何系统都会有各种各样的问题，有些是系统本身设计问题，有些却是使用姿势问题. HBase也一样，在真实生产线上大家或多或少都会遇到很多问题，有些是HBase还需要完善的，有些是我们确实对它了解太少. 总结起来，大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大.

Spark概览

- - 简单文本

Spark具有先进的DAG执行引擎，支持cyclic data flow和内存计算. 因此，它的运行速度，在内存中是Hadoop MapReduce的100倍，在磁盘中是10倍. 这样的性能指标，真的让人心动啊. Spark的API更为简单，提供了80个High Level的操作，可以很好地支持并行应用.

Spark与Mapreduce？

- - 崔永键的博客

我本人是类似Hive平台的系统工程师，我对MapReduce的熟悉程度是一般，它是我的底层框架. 我隔壁组在实验Spark，想将一部分计算迁移到Spark上. 年初的时候，看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性. 但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了.

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

摘要

为何要处理数据倾斜（Data Skew）

什么是数据倾斜

数据倾斜是如何造成的

如何缓解/消除数据倾斜

尽量避免数据源的数据倾斜

调整并行度分散同一个Task的不同Key

原理

案例

总结

自定义Partitioner

原理

案例

总结

将Reduce side Join转变为Map side Join

原理

案例

总结

为skew的key增加随机前/后缀

原理

案例

总结

大表随机添加N种随机前缀，小表扩大N倍

原理

案例

总结

总结

相关 [spark 性能优化 spark] 推荐：

Spark性能优化指南——基础篇

Spark性能优化指南——高级篇

Spark性能优化——和shuffle搏斗

实用教程|Spark性能优化之道——解决Spark数据倾斜

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

HBase最佳实践－写性能优化策略 – 有态度的HBase/Spark/BigData

HBase最佳实践－读性能优化策略 – 有态度的HBase/Spark/BigData

Spark概览

Spark与Mapreduce？

相关文章

订阅