Spark Streaming 1.6 流式状态管理分析 - 简书

输入数据	mapWithState后的结果	调用stateSnapshots后的结果
(hello, 1)	(hello, 1)	(hello, 3)
(hello, 1)	(hello, 2)	(world, 2)
(world, 1)	(world, 1)
(world, 1)	(world, 2)
(hello, 1)	(hello, 3)

- -

Spark 1.6发布后，官方声称流式状态管理有10倍性能提升. 这篇文章会详细介绍Spark Streaming里新的流式状态管理. 在流式计算中，数据是持续不断来的，有时候我们要对一些数据做跨周期(Duration)的统计，这个时候就不得不维护状态了. 而状态管理对Spark 的 RDD模型是个挑战，因为在spark里，任何数据集都需要通过RDD来呈现，而RDD 的定义是一个不变的分布式集合.

[原]Spark Streaming原理简析

- - 张包峰的博客

StreamingContext实例化的时候，需要传入一个 SparkContext，然后指定要连接的 spark matser url，即连接一个 spark engine，用于获得executor. 实例化之后，首先，要指定一个接收数据的方式，如. 这样从socket接收文本数据. 这个步骤返回的是一个 ReceiverInputDStream的实现，内含 Receiver，可接收数据并转化为RDD放内存里.

Spark Streaming 调优实践

- - IT瘾-dev

分享嘉宾：肖力涛拼多多资深算法工程师. 注：欢迎转载，转载请注明出处. 在使用 Spark 和 Spark Streaming 时，当我们将应用部署在集群上时，可能会碰到运行慢、占用过多资源、不稳定等问题，这时需要做一些优化才能达到最好的性能. 有时候一个简单的优化可以起到化腐朽为神奇的作用，使得程序能够更加有效率，也更加节省资源.

Spark Streaming 自定义接收器

- - zzm

Spark Streaming可以从任意数据源接受流数据，而不仅仅是那些内置支持的数据源（如Flume、kafka等）. 这就要求开发人员实现一个接收器（recevier），用于接收来自有关数据源的数据. 本篇手册以一个自定义的接收器（recevier）实现和其在spark streaming中的应为为主线进行讲解.

Spark Streaming 与 Kafka 整合的改进 | SmartSi

- -

Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一. 我们在 Spark Streaming 中也看到了同样的趋势. 因此，在 Apache Spark 1.3 中，我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进. 为 Kafka 新增了 Direct API - 这允许每个 Kafka 记录在发生故障时只处理一次，并且不使用 Write Ahead Logs.

GitHub - allwefantasy/streamingpro: Build Spark Batch/Streaming/MLlib Application by SQL

- -

StreamingPro 中文文档. 应用模式：写json配置文件，StreamingPro启动后执行该文件，可以作为批处理或者流式程序. 服务模式：启动一个StreamingPro Server作为常驻程序,然后通过http接口发送MLSQL脚本进行交互. 我们强烈推荐使用第二种模式，第一种模式现在已经不太更新了，现在迅速迭代的是第二种模式，并且第二种模式可以构建AI平台.

Spark Streaming 数据限流简述

- - IT瘾-dev

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；. 流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模；. 由于流处理的数据流特征，使之数据流具有不可预测性，而且数据处理的速率还与硬件、网络等资源有关，在这种情况下如不对源源不断进来的数据流速率进行限制，那当Spark节点故障、网络故障或数据处理吞吐量下来时还有数据不断流进来，那将有可能将出现OOM进而导致Spark Streaming程序崩溃；.

Spark Streaming 1.6 流式状态管理分析 - 简书

关于状态管理

前言

updateStateByKey的实现

mapWithState(1.6新引入的流式状态管理)的实现

mapWithState额外内容

相关 [spark streaming 状态] 推荐：