如何用 Hadoop/Spark 构建七牛数据平台

Spark：比Hadoop更强大的分布式数据计算项目

- - 标点符

Spark是一个由加州大学伯克利分校（UC Berkeley AMP）开发的一个分布式数据快速分析项目. 它的核心技术是弹性分布式数据集(Resilient distributed datasets)，提供了比Hadoop更加丰富的MapReduce模型，可以快速在内存中对数据集进行多次迭代，来支持复杂的数据挖掘算法和图计算算法.

数据平台在大部分公司都属于支撑性平台，做的不好立刻会被吐槽，这点和运维部门很像. 所以在技术选型上优先考虑现成的工具，快速出成果，没必要去担心有技术负担. 早期，我们走过弯路，认为没多少工作量，收集存储和计算都自己研发，发现是吃力不讨好. 去年上半年开始，我们全面拥抱开源工具，搭建自己的数据平台. 公司的主要数据来源是散落在各个业务服务器上的半结构化日志，比如系统日志、程序日志、访问日志、审计日志等.

Spark是否会替代Hadoop?

- - CSDN博客推荐文章

我经常会从客户或者网上听到这个问题，尤其是最近几年. 那么关于spark哪些被我们神化了，哪些又是真实的，以及它在“大数据”的生态系统中又是怎样的. 说实话，其实我把这个问题作为标题是有问题的，但是我们经常会这样问. Hadoop并不是一个单独的产品而是一个生态系统，而spark也是一样的. 目前Hadoop生态系统主要包括：.

hadoop/spark关闭钩子研究

- - 开源软件 - ITeye博客

引子：在使用spark和hadoop的时候，遇到一些进程退出时的报错. 因此顺便研究了一下jvm以及一些开源框架的关闭钩子的机制. 这篇文章不涉及底层native实现，仅限Java层面. 注册jvm关闭钩子通过Runtime.addShutdownHook()，实际调用ApplicationShutdownHooks.add().

ElasticSearch位置搜索 - Spring , Hadoop, Spark , BI , ML - CSDN博客

- -

在ElasticSearch中，地理位置通过. geo_point这个数据类型来支持. 地理位置的数据需要提供经纬度信息，当经纬度不合法时，ES会拒绝新增文档. 这种类型的数据支持距离计算，范围查询等. mapping为city:. geo_point类型必须显示指定，ES无法从数据中推断. 在ES中，位置数据可以通过对象，字符串，数组三种形式表示，分别如下：.

spark结构化数据处理：Spark SQL、DataFrame和Dataset | smallx's sth.

- -

本文讲解Spark的结构化数据处理，主要包括：Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容. 本文主要讲解Spark 1.6.x的结构化数据处理相关东东，但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际，并且Spark 2.0的预览版本也已发布许久)，因此请随时关注.

Hadoop的数据管理

- - 技术改变世界创新驱动中国 - 《程序员》官网

本文主要介绍Hadoop的数据管理，主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive. HDFS是分布式计算的存储基石，Hadoop分布式文件系统和其他分布式文件系统有很多类似的特性：. 对于整个集群有单一的命名空间；. 具有数据一致性，都适合一次写入多次读取的模型，客户端在文件没有被成功创建之前是无法看到文件存在的；.

大数据架构hadoop

- - CSDN博客云计算推荐文章

摘要：Admaster数据挖掘总监随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了一个海量数据的时代，数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB，对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了一个海量数据的时代，数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB，对这些海量数据的分析已经成为一个非常重要且紧迫的需求.

Spark-ML-数据获取/处理/准备

- - CSDN博客综合推荐文章

UCL机器学习知识库：包括近300个不同大小和类型的数据集，可用于分类、回归、聚类和推荐系统任务. 数据集列表位于： http://archive.ics.uci.edu/ml/. Amazon AWS公开数据集：包含的通常是大型数据集，可通过Amazon S3访问. 这些数据集包括人类基因组项目、 Common Crawl 网页语料库、维基百科数据和 Google Books Ngrams.

Spark Streaming 数据限流简述

- - IT瘾-dev

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；. 流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模；. 由于流处理的数据流特征，使之数据流具有不可预测性，而且数据处理的速率还与硬件、网络等资源有关，在这种情况下如不对源源不断进来的数据流速率进行限制，那当Spark节点故障、网络故障或数据处理吞吐量下来时还有数据不断流进来，那将有可能将出现OOM进而导致Spark Streaming程序崩溃；.

如何用 Hadoop/Spark 构建七牛数据平台

1、数据平台设计理念

2、数据平台设计架构

2.1 Agent设计需求

2.2 数据收集流程

2.3 跨机房收集要点

2.4 Kafka使用要点

2.5 数据离线和实时计算

3、七牛数据平台规模

相关 [hadoop spark 数据] 推荐：

Spark：比Hadoop更强大的分布式数据计算项目