Spark入门实战系列--6.SparkSQL（下）--Spark实战应用 - shishanyuan - 博客园

- -

【注】该系列文章以及使用到安装包/测试数据可以在《. 倾情大奉送--Spark入门实战系列》获取. l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存. l 虚拟软件：VMware® Workstation 9.0.0 build-812388. l 虚拟机操作系统：CentOS 64位，单核.

SparkSql系列(7/25) 去重方法

- - 算法之道

消除重复的数据可以通过使用 distinct 和 dropDuplicates 两个方法，二者的区别在于， distinct 是所有的列进行去重的操作，假如你的 DataFrame里面有10列，那么只有这10列完全相同才会去重， dropDuplicates 则是可以指定列进行去重，相当于是 distinct 的缩小版.

[原]Spark MLlib系列(二):基于协同过滤的电影推荐系统

- -

随着大数据时代的到来，数据当中挖取金子的工作越来越有吸引力. 利用Spark在内存迭代运算、机器学习领域强悍性能的优势，使用spark处理数据挖掘问题就显得很有实际价值. 这篇文章给大家分享一个spark MLlib 的推荐实战例子. 我将会分享怎样用spark MLlib做一个电影评分的推荐系统.

Spark概览

- - 简单文本

Spark具有先进的DAG执行引擎，支持cyclic data flow和内存计算. 因此，它的运行速度，在内存中是Hadoop MapReduce的100倍，在磁盘中是10倍. 这样的性能指标，真的让人心动啊. Spark的API更为简单，提供了80个High Level的操作，可以很好地支持并行应用.

我本人是类似Hive平台的系统工程师，我对MapReduce的熟悉程度是一般，它是我的底层框架. 我隔壁组在实验Spark，想将一部分计算迁移到Spark上. 年初的时候，看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性. 但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了.

Spark迷思

- - ITeye博客

目前在媒体上有很大的关于Apache Spark框架的声音，渐渐的它成为了大数据领域的下一个大的东西. 证明这件事的最简单的方式就是看google的趋势图：. 上图展示的过去两年Hadoop和Spark的趋势. Spark在终端用户之间变得越来越受欢迎，而且这些用户经常在网上找Spark相关资料. 这给了Spark起了很大的宣传作用；同时围绕着它的也有误区和思维错误，而且很多人还把这些误区作为银弹，认为它可以解决他们的问题并提供比Hadoop好100倍的性能.

Spark 优化

- - CSDN博客推荐文章

提到Spark与Hadoop的区别，基本最常说的就是Spark采用基于内存的计算方式，尽管这种方式对数据处理的效率很高，但也会往往引发各种各样的问题，Spark中常见的OOM等等. 效率高的特点，注定了Spark对性能的严苛要求，那Spark不同程序的性能会碰到不同的资源瓶颈，比如：CPU，带宽、内存.

Spark&Spark性能调优实战

- - CSDN博客互联网推荐文章

Spark特别适用于多次操作特定的数据，分mem-only和mem & disk. 其中mem-only:效率高，但占用大量的内存，成本很高;mem & disk:内存用完后，会自动向磁盘迁移，解决了内存不足的问题，却带来了数据的置换的消费. Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析：.

Mesos上部署spark

- - 开源小站

还是回到之前一直持续的 Mesos话题. 在之前的环节里，我们已经尝试了Mesos的安装，Marathon守护服务以及相对比较主流的Mesos作为Hadoop的资源管理器的实际操作. 这次就说说同属于伯克利出品的Spark. 其实spark最初0.7以前的版本还没有自己的资源管理系统，资源的调度都是通过Mesos来执行的.

Spark容错机制

- - zzm

一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新. 面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源. 因此，Spark选择记录更新的方式. 但是，如果更新粒度太细太多，那么记录更新成本也不低.

序号	IP 地址	机器名	类型	核数/内存	用户名	目录
1	192.168.0.61	hadoop1	NN/DN/RM Master/Worker	1核/3G	hadoop	/app程序所在路径 /app/scala-... /app/hadoop /app/complied
2	192.168.0.62	hadoop2	DN/NM/Worker	1核/2G	hadoop
3	192.168.0.63	hadoop3	DN/NM/Worker	1核/2G	hadoop

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用 - shishanyuan - 博客园

【注】该系列文章以及使用到安装包/测试数据 可以在《 倾情大奉送--Spark入门实战系列》获取

1、运行环境说明

1.1 硬软件环境

1.2 机器网络环境

2、Spark基础应用

2.1 启动Spark shell

2.1.1 环境设置

2.1.2 启动HDFS

2.1.3 启动Spark集群

2.1.4 启动Spark-Shell

2.2 sqlContext演示

2.2.1 使用Case Class定义RDD演示

2.2.2 使用applySchema定义RDD演示

2.2.3 parquet演示

2.2.4 json演示

2.2.5 sqlContext中混合使用演示

2.3 hiveContext演示

2.3.1 启动hive

2.3.2 在SPARK_HOME/conf目录下创建hive-site.xml

2.3.3 查看数据库表

2.3.4 计算所有订单中每年的销售单数、销售总额

2.3.5 计算所有订单每年最大金额订单的销售额

2.3.6 计算所有订单中每年最畅销货品

2.3.7 hiveContext中混合使用演示

2.4 Cache使用

2.5 DSL演示

3、Spark综合应用

3.1 SQL On Spark

3.1.1 实现代码

3.1.2 IDEA本地运行

3.1.3 生成打包文件

3.1.4 运行查看结果

3.2 Hive On Spark

3.2.1 实现代码

3.2.2 生成打包文件

3.2.3 运行查看结果

3.3 店铺分类

3.3.1 实现代码

3.3.2 生成打包文件

3.3.3 运行查看结果

3.4 PageRank

3.4.1 创建表

3.4.2 实现代码

3.4.3 生成打包文件

3.4.4 运行查看结果

3.5 小结

相关 [spark 系列 sparksql] 推荐：

相关文章

订阅

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取