Flume+Spark+Hive+Spark SQL离线分析系统

- - CSDN博客推荐文章

前段时间把Scala和Spark一起学习了，所以借此机会在这里做个总结，顺便和大家一起分享一下目前最火的分布式计算技术Spark. 当然Spark不光是可以做离线计算，还提供了许多功能强大的组件，比如说，Spark Streaming 组件做实时计算，和Kafka等消息系统也有很好的兼容性；Spark Sql，可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据；还提供了种类丰富的MLlib库方便用户做机器学习等等.

beeline 连接SPARK /Hive

- - 开源软件 - ITeye博客

hiveclient所在主机的jdk 1.7_51，hive 0.12和hadoop 2.3.0是从服务器端拷贝过来的，环境变量一切OK. 执行连接报了Invalid URL的错误：. 开始的一段时间都在纠结这个jdbc的URL格式问题，后来在cloudra论坛上找到了一个方法,. 直接调用的jdbc:hive2的驱动测试是正常的，证明CLASSPATH等环境变量没有问题.

Spark-1.3.1与Hive整合实现查询分析

- - 简单之美

在大数据应用场景下，使用过Hive做查询统计分析的应该知道，计算的延迟性非常大，可能一个非常复杂的统计分析需求，需要运行1个小时以上，但是比之于使用MySQL之类关系数据库做分析，执行速度快很多很多. 使用HiveQL写类似SQL的查询分析语句，最终经过Hive查询解析器，翻译成Hadoop平台上的MapReduce程序进行运行，这也是MapReduce计算引擎的特点带来的延迟问题：Map中间结果写文件.

Flume OG 与 Flume NG 的对比

- - 开源软件 - ITeye博客

很久没接触flume了，刚掀开官网一看，发现flume已然不是以前的那个flume了，其实早在flume技术群就听到NG这个字眼，以前没特注意，今天做了些对比，发现flume确实有了投胎换骨般的改变. 首先介绍下Flume OG & Flume NG这两个概念. Flume OG:Flume original generation 即Flume 0.9.x版本.

flume日志采集

- - CSDN博客推荐文章

1.1.2. Client端Log4j配置文件. （黄色文字为需要配置的内容）. //日志Appender修改为flume提供的Log4jAppender. //日志需要发送到的端口号，该端口要有ARVO类型的source在监听. //日志需要发送到的主机ip，该主机运行着ARVO类型的source.

Flume日志收集

- - 企业架构 - ITeye博客

转： http://www.cnblogs.com/oubo/archive/2012/05/25/2517751.html. Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力.

hive调优

- - 互联网 - ITeye博客

一、控制hive任务中的map数: . 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；.

hive 优化 tips

- - CSDN博客推荐文章

一、 Hive join优化. 也可以显示声明进行map join：特别适用于小表join大表的时候，SELECT /*+ MAPJOIN(b) */ a.key, a.value FROM a join b on a.key = b.key. 2. 注意带表分区的join，如：.

Hive中的join

- - CSDN博客云计算推荐文章

select a.* from a join b on a.id = b.id select a.* from a join b on (a.id = b.id and a.department = b.department). 在使用join写查询的时候有一个原则：应该将条目少的表或者子查询放在join操作符的左边.

hive优化（2）

- - 开源软件 - ITeye博客

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具. 使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，. 所以需要去掉原有关系型数据库下开发的一些固有思维. 1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段.

Flume+Spark+Hive+Spark SQL离线分析系统

Spark离线分析系统架构图

网站点击流数据

HDFS

收集用户数据

Spark

日志清洗

Hive

Spark SQL

Troubleshooting

使用Flume拉取文件到HDFS中会遇到将文件分散成多个1KB-5KB的小文件的问题

使用Flume拉取到HDFS中的文件格式错乱

启动Spark任务的时候会报任务无法序列化的错误

在分布式环境下如何设置每个用户的SessionID

使用maven编译Spark程序时报错

要在Spark中使用HiveContext，配置完后启动spark-shell报错

相关 [flume spark hive] 推荐：