Spark Streaming vs. Kafka Stream 哪个更适合你

标签： bigdata | 发表时间：2017-06-26 08:00 | 作者：

出处：http://itindex.net/relian

大数据

作者：Mahesh Chand Kandpal
翻译：雁惊寒

译者注：本文介绍了两大常用的流式处理框架，Spark Streaming和Kafka Stream，并对他们各自的特点做了详细说明，以帮助读者在不同的场景下对框架进行选择。以下是译文。流式处理的需求每天都在增加，仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理，以便企业能够实时地对不断变化的业务环境做出反应。流式处理是持续而又并发地对数据进行实时处理。流式处理是处理数据流或传感器数据的理想平台，而“复杂事件处理”（CEP）则利用了逐个事件处理和聚合等技术。对于实时数据处理功能，我们有很多选择可以来实现，比如Spark、Kafka Stream、Flink、Storm等。在这个博客中，我将讨论Apache Spark和Kafka Stream的区别。

Apache Spark

Apache Spark是大规模数据处理的通用框架，支持多种不同的编程语言和概念，例如MapReduce、内存处理、流式处理、图形处理和机器学习。它也可以用于Hadoop的顶层。数据可以从多种来源（例如Kafka、Flume、Kinesis或TCP套接字）获取，并且使用一些复杂的算法（高级功能，例如映射、归约、连接和窗口等）对数据进行处理。

大数据

在框架内部，它的工作原理如下图。 Spark Streaming接收实时输入数据流，并将数据分成多个批次，然后由Spark引擎对其进行处理，批量生成最终的结果流。

大数据

Spark Streaming提供了一个被称为离散化数据流（discretized stream，缩写为DStream）的高级抽象，它代表了一个持续的数据流。DStream可以从诸如Kafka、Flume或Kinesis等来源的输入数据流中创建，或者通过对其他DStream执行高级操作来创建。在框架内部，DStream可以看成是一系列的RDD（Resilient Distributed Datasets，弹性分布式数据集）。

Kafka Stream

Kafka Streams是一个用于处理和分析数据的客户端库。它先把存储在Kafka中的数据进行处理和分析，然后将最终所得的数据结果回写到Kafka或发送到外部系统去。它建立在一些非常重要的流式处理概念之上，例如适当区分事件时间和处理时间、窗口支持，以及应用程序状态的简单（高效）管理。同时，它也基于Kafka中的许多概念，例如通过划分主题进行扩展。此外，由于这个原因，它作为一个轻量级的库可以集成到应用程序中去。这个应用程序可以根据需要独立运行、在应用程序服务器中运行、作为Docker容器，或通过资源管理器（如Mesos）进行操作。

Kafka Streams直接解决了流式处理中的很多困难问题：

毫秒级延迟的逐个事件处理。
有状态的处理，包括分布式连接和聚合。
方便的DSL。
使用类似DataFlow的模型对无序数据进行窗口化。
具有快速故障切换的分布式处理和容错能力。
无停机滚动部署。

Apache Spark可以与Kafka一起使用来传输数据，但是如果你正在为新应用程序部署一个Spark集群，这绝对是一个复杂的大问题。

为了克服这个复杂性，我们可以使用完整的流式处理框架，Kafka streams正是实现这个目的的最佳选择。

大数据

我们的目标是简化流式处理，使之成为异步服务的主流应用程序编程模型。这是我知道的第一个库，它充分利用了Kafka，而不仅仅把Kafka当做是一个信息中介。

Streams建立在KTables和KStreams的概念之上，这有助于他们提供事件时间处理。

给出一个与Kafka的核心抽象高度集成的处理模型，能够减少流式架构中移动件的总数。

将状态表与事件流完全整合起来，并在单个概念框架中提供这两个东西，这使得Kafka Streams完全成为一个嵌入式的库，而不是流式处理集群（只是Kafka和你的应用程序）。当你向应用程序加入了一个新的实例，或者现有的实例发生崩溃的时候，它能够自动均衡负载，并维护表的本地状态，使得系统能够从故障中恢复出来。

Kafka Streams具备低延迟的特点，并且支持易于使用的事件时间。它是一个非常重要的库，非常适合某些类型的任务。这也是为什么一些设计可以针对Kafka的工作原理进行深入地优化的原因。你不需要设置任何种类的Kafka Streams集群，也没有集群管理器。如果你需要实现一个简单的Kafka的主题到主题的转换、通过关键字对元素进行计数、将另一个主题的数据加载到流上，或者运行聚合或只执行实时处理，那么Kafka Streams适合于你。

如果事件时间不相关，并且秒级的延迟可以接受，那么Spark是你的第一选择。它相当稳定，并且可以很容易地集成到几乎任何类型的系统中去。此外，每个Hadoop发行版都包含它。而且，用于批处理应用程序的代码也可以用于流式应用程序，因为API是相同的。

结论

我认为，Kafka Streams最适用于“Kafka > Kafka”场景，而Spark Streaming可用于“Kafka > 数据库”或“Kafka > 数据科学模型“这样的场景。

End.

转载请注明来自36大数据（36dsj.com)： 36大数据» Spark Streaming vs. Kafka Stream 哪个更适合你

Spark Streaming vs. Kafka Stream 哪个更适合你

- - IT瘾-bigdata

作者：Mahesh Chand Kandpal. 译者注：本文介绍了两大常用的流式处理框架，Spark Streaming和Kafka Stream，并对他们各自的特点做了详细说明，以帮助读者在不同的场景下对框架进行选择. 流式处理的需求每天都在增加，仅仅对大量的数据进行处理是不够的. 数据必须快速地得到处理，以便企业能够实时地对不断变化的业务环境做出反应.

[原]Spark Streaming原理简析

- - 张包峰的博客

StreamingContext实例化的时候，需要传入一个 SparkContext，然后指定要连接的 spark matser url，即连接一个 spark engine，用于获得executor. 实例化之后，首先，要指定一个接收数据的方式，如. 这样从socket接收文本数据. 这个步骤返回的是一个 ReceiverInputDStream的实现，内含 Receiver，可接收数据并转化为RDD放内存里.

Spark Streaming 调优实践

- - IT瘾-dev

分享嘉宾：肖力涛拼多多资深算法工程师. 注：欢迎转载，转载请注明出处. 在使用 Spark 和 Spark Streaming 时，当我们将应用部署在集群上时，可能会碰到运行慢、占用过多资源、不稳定等问题，这时需要做一些优化才能达到最好的性能. 有时候一个简单的优化可以起到化腐朽为神奇的作用，使得程序能够更加有效率，也更加节省资源.

Spark Streaming 自定义接收器

- - zzm

Spark Streaming可以从任意数据源接受流数据，而不仅仅是那些内置支持的数据源（如Flume、kafka等）. 这就要求开发人员实现一个接收器（recevier），用于接收来自有关数据源的数据. 本篇手册以一个自定义的接收器（recevier）实现和其在spark streaming中的应为为主线进行讲解.

Spark Streaming 与 Kafka 整合的改进 | SmartSi

- -

Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一. 我们在 Spark Streaming 中也看到了同样的趋势. 因此，在 Apache Spark 1.3 中，我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进. 为 Kafka 新增了 Direct API - 这允许每个 Kafka 记录在发生故障时只处理一次，并且不使用 Write Ahead Logs.

GitHub - allwefantasy/streamingpro: Build Spark Batch/Streaming/MLlib Application by SQL

- -

StreamingPro 中文文档. 应用模式：写json配置文件，StreamingPro启动后执行该文件，可以作为批处理或者流式程序. 服务模式：启动一个StreamingPro Server作为常驻程序,然后通过http接口发送MLSQL脚本进行交互. 我们强烈推荐使用第二种模式，第一种模式现在已经不太更新了，现在迅速迭代的是第二种模式，并且第二种模式可以构建AI平台.

Spark Streaming 数据限流简述

- - IT瘾-dev

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；. 流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模；. 由于流处理的数据流特征，使之数据流具有不可预测性，而且数据处理的速率还与硬件、网络等资源有关，在这种情况下如不对源源不断进来的数据流速率进行限制，那当Spark节点故障、网络故障或数据处理吞吐量下来时还有数据不断流进来，那将有可能将出现OOM进而导致Spark Streaming程序崩溃；.

Spark Streaming vs. Kafka Stream 哪个更适合你

Apache Spark

Kafka Stream

结论

相关 [spark streaming vs] 推荐：

Spark Streaming vs. Kafka Stream 哪个更适合你

[原]Spark Streaming原理简析

Spark Streaming 调优实践

Spark Streaming 自定义接收器

Spark Streaming 与 Kafka 整合的改进 | SmartSi

GitHub - allwefantasy/streamingpro: Build Spark Batch/Streaming/MLlib Application by SQL

Spark Streaming 数据限流简述

Kafka+Spark Streaming+Redis实时计算整合实践

Spark Streaming + Elasticsearch构建App异常监控平台

Spark Streaming+kafka订单实时统计实现

相关文章

订阅