实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

- - lxw的大数据田地

本文想记录和表达的东西挺多的，一时想不到什么好的标题，所以就用上面的关键字作为标题了. 在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once. 本文以Kafka–>Spark Streaming–>Redis为例，一方面说明一下如何做到Exactly-once，另一方面说明一下我是如何计算实时去重指标的.

Kafka+Spark Streaming+Redis实时计算整合实践

- - 简单之美

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性. 这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算.

LSH Spark 千万级用户/Item 相似度计算 cosine-lsh-join-spark: Approximate Nearest Neighbors in Spark

- -

This family of algorithms are very fast but might not give the exact solution and are hence called approximate nearest neighbours (ANN). This is an interface to find the k nearest neighbors from a data set for every other object in the same data set.

Spark：一个高效的分布式计算系统

- - IT技术博客大学习

标签： Spark 分布式. Spark与Hadoop的对比. Spark的中间数据放到内存中，对于迭代运算效率更高. Spark更适合于迭代运算比较多的ML和DM运算. 因为在Spark里面，有RDD的抽象概念. Spark比Hadoop更通用. Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作.

分布式计算框架-Spark初步理解

- - 互联网 - ITeye博客

最开始关注Spark，是在csdn首页上看到一篇文件《Spark核心开发者：性能超Hadoop百倍，算法实现仅有其1/10或1/100》的，看着标题确实感觉比较年逼的. 后来稍微研究了一下，其实发现，这个描述有点问题. Spark是一个基于内存的纯计算框架，而hadoop是包括计算框架的mapreduce和分布式存储hdfs，所以应该描述为Spark性能超Hadoop的mapreduce计算性能百倍.

分布式计算系统 Spark 成为 Apache 顶级项目

- - 博客园_新闻

Apache 软件基金会今天宣布，Spark 项目已从孵化器毕业，成为 Apache 软件基金会的一个顶级项目. Spark 是一个高效的分布式计算系统，发源于美国加州大学伯克利分校 AMPLab 的集群计算平台. Spark 被称为“Hadoop 的瑞士军刀”，拥有非凡的速度和易用性. Spark 立足于内存计算，相比 Hadoop MapReduce，Spark 在性能上要高 100 倍，而且 Spark 提供了比 Hadoop 更上层的 API，同样的算法在 Spark 中实现往往只有 Hadoop 的1/10 或者1/100 的长度.

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

1. 关于数据源

2. 实时计算需求

3. Spark Streaming消费Kafka数据

4. Redis中的数据模型

5. 故障恢复

6. 附程序

相关 [实时计算 spark] 推荐：