分布式计算框架-Spark初步理解

分布式计算开源框架Hadoop入门实践

- - ITeye博客

一、分布式计算开源框架Hadoop实践. 在 SIP项目设计的过程中，对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计，在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到. 但是由于统计的内容暂时还是十分简单，所以就采用Memcache作为计数器，结合MySQL就完成了访问控制以及统计的工作.

最开始关注Spark，是在csdn首页上看到一篇文件《Spark核心开发者：性能超Hadoop百倍，算法实现仅有其1/10或1/100》的，看着标题确实感觉比较年逼的. 后来稍微研究了一下，其实发现，这个描述有点问题. Spark是一个基于内存的纯计算框架，而hadoop是包括计算框架的mapreduce和分布式存储hdfs，所以应该描述为Spark性能超Hadoop的mapreduce计算性能百倍.

分布式框架Dubbo

- - Linux - 操作系统 - ITeye博客

互联网的发展，网站应用的规模不断扩大，常规的垂直应用架构已无法应对，分布式服务架构以及流动计算架构势在必行，Dubbo是一个分布式服务框架，在这种情况下诞生的. 现在核心业务抽取出来，作为独立的服务，使前端应用能更快速和稳定的响应. 大规模服务化之前，应用可能只是通过RMI或Hessian等工具，简单的暴露和引用远程服务，通过配置服务的URL地址进行调用，通过F5等硬件进行负载均衡.

如何将TensorFlow用作计算框架

- - 神刀安全网

摘要：如果你刚刚接触TensorFlow并想使用其来作为计算框架，那么本文是你的一个很好的选择，阅读它相信会对你有所帮助. Tensorflow可能是最受欢迎，增长最快的机器学习框架. 在 Github拥有超过70000个点赞，并得到Google的支持，不仅拥有比 Linux更多的点赞，还拥有大量的资源.

王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程：10分钟理解云计算分布式大数据处理框架Hadoop

- - CSDN博客云计算推荐文章

分布式流式处理框架：Storm

- - 标点符

Storm是一个免费开源、分布式、高容错的实时计算系统. 它与其他大数据解决方案的不同之处在于它的处理方式. Hadoop 在本质上是一个批处理系统，数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行处理. 当处理完成时，结果数据返回到 HDFS 供始发者使用. Hadoop的高吞吐，海量数据处理的能力使得人们可以方便地处理海量数据.

分布式服务框架：Zookeeper

- - 标点符

Zookeeper是一个高性能，分布式的，开源分布式应用协调服务. 它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间. 它被设计为易于编程，使用文件系统目录树作为数据模型. 服务端跑在java上，提供java和C的客户端API. Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来leader选举，配置信息维护等，在一个分布式的环境中，需要一个Master实例或存储一些配置信息，确保文件写入的一致性等.

分布式计算框架-Spark初步理解

Spark适用场景

Spark生态系统

Spark Streaming

Shark（Hive on Spark）

Spark核心概念

Rdd(Resilient Distributed Dataset，弹性分布数据集)

Lineage(血统依赖算法）

相关 [分布计算框架] 推荐：

分布式计算开源框架Hadoop入门实践