Spark对数据倾斜的八种处理方法

- -

Spark对数据倾斜的八种处理方法. 本文主要讲Spark针对数据倾斜的解决方案（来自数盟的一篇文章《数据倾斜是多么痛. spark作业/面试/调优必备秘籍》，见文末参考），但核心思想也可迁移到其它框架的使用上，部分需要看图更好理解（毕竟本文只是对其理解，相当于摘要，建议直接打开文末参考的连接）. 之前在做垃圾短信分类中，也遇到过OOM的问题，我的解决方案是使用RDD.randomSplit对RDD进行指定比例切分出多个subRDD，没有本文考虑地如此细致.

spark结构化数据处理：Spark SQL、DataFrame和Dataset | smallx's sth.

- -

本文讲解Spark的结构化数据处理，主要包括：Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容. 本文主要讲解Spark 1.6.x的结构化数据处理相关东东，但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际，并且Spark 2.0的预览版本也已发布许久)，因此请随时关注.

Spark-ML-数据获取/处理/准备

- - CSDN博客综合推荐文章

UCL机器学习知识库：包括近300个不同大小和类型的数据集，可用于分类、回归、聚类和推荐系统任务. 数据集列表位于： http://archive.ics.uci.edu/ml/. Amazon AWS公开数据集：包含的通常是大型数据集，可通过Amazon S3访问. 这些数据集包括人类基因组项目、 Common Crawl 网页语料库、维基百科数据和 Google Books Ngrams.

Spark Streaming 数据限流简述

- - IT瘾-dev

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；. 流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模；. 由于流处理的数据流特征，使之数据流具有不可预测性，而且数据处理的速率还与硬件、网络等资源有关，在这种情况下如不对源源不断进来的数据流速率进行限制，那当Spark节点故障、网络故障或数据处理吞吐量下来时还有数据不断流进来，那将有可能将出现OOM进而导致Spark Streaming程序崩溃；.

实用教程|Spark性能优化之道——解决Spark数据倾斜

- - IT瘾-geek

实用教程|Spark性能优化之道——解决Spark数据倾斜. 2017-03-16 11:31 浏览次数：108. 为何要处理数据倾斜（Data Skew）. 对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜. 数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈.

虚拟座谈会：大数据一栈式方案Spark

- - CSDN博客架构设计推荐文章

Spark正在占据越来越多的大数据新闻的重要位置，除了性能优异，Spark到底具备了那些特性，让学术界和工业界对其充满了兴趣. 同时，Spark还处在快速发展的阶段，开发者和用户不得不解决不稳定和bug，Scala语言也有较高的学习门槛，这些也会成为Spark普及的障碍. 当然，尽管Spark提供了一栈式的大数据方案，但并不意味着他适合任何场景.

Spark：比Hadoop更强大的分布式数据计算项目

- - 标点符

Spark是一个由加州大学伯克利分校（UC Berkeley AMP）开发的一个分布式数据快速分析项目. 它的核心技术是弹性分布式数据集(Resilient distributed datasets)，提供了比Hadoop更加丰富的MapReduce模型，可以快速在内存中对数据集进行多次迭代，来支持复杂的数据挖掘算法和图计算算法.

如何用 Hadoop/Spark 构建七牛数据平台

- - leejun_2005的个人页面

数据平台在大部分公司都属于支撑性平台，做的不好立刻会被吐槽，这点和运维部门很像. 所以在技术选型上优先考虑现成的工具，快速出成果，没必要去担心有技术负担. 早期，我们走过弯路，认为没多少工作量，收集存储和计算都自己研发，发现是吃力不讨好. 去年上半年开始，我们全面拥抱开源工具，搭建自己的数据平台. 公司的主要数据来源是散落在各个业务服务器上的半结构化日志，比如系统日志、程序日志、访问日志、审计日志等.

实用 | 从Apache Kafka到Apache Spark安全读取数据

- - IT瘾-bigdata

随着在CDH平台上物联网(IoT)使用案例的不断增加，针对这些工作负载的安全性显得至关重要. 本篇博文对如何以安全的方式在Spark中使用来自Kafka的数据，以及针对物联网(IoT)使用案例的两个关键组件进行了说明. Cloudera Distribution of Apache Kafka 2.0.0版本(基于Apache Kafka 0.9.0)引入了一种新型的Kafka消费者API，可以允许消费者从安全的Kafka集群中读取数据.

60 TB 数据：Facebook 是如何大规模使用 Apache Spark 的

- - IT技术博客大学习

标签： facebook spark. Facebook 经常使用数据驱动的分析方法来做决策. 在过去的几年，用户和产品的增长已经需要我们的分析工程师一次查询就要操作数十 TB 大小的数据集. 我们的一些批量分析执行在古老的 Hive 平台（ Apache Hive 由 Facebook 贡献于 2009 年）和 Corona 上——这是我们定制的 MapReduce 实现.

Spark对数据倾斜的八种处理方法 | Peripateticism

本文目录

1. 什么是数据倾斜

2. 解决数据倾斜需要

3. 导致Spark数据倾斜的本质

4. 定位最慢的Task所处的源码位置

5. 解决方案

方案一：使用Hive ETL预处理

方案二：过滤导致倾斜的key

方案三：提高Shuffle操作并行度

方案四：两阶段聚合（局部聚合+全局聚合）

方案五：将reduce join转为map join

方案六：采样倾斜key并分拆join操作

方案七：用随机前缀和扩容RDD进行join

方案八：多种方案组合

6. 参考

相关 [spark 数据方法] 推荐：