hive-数据倾斜解决详解

同步mysql数据到hive

- - ITeye博客

地址为：http://archive.cloudera.com/cdh/3/下载相应版本，如sqoop-1.2.0-CDH3B4.tar.gz. 地址为：http://archive.cloudera.com/cdh/3/，版本可以为hadoop-0.20.2-CDH3B4.tar.gz. 3.解压 sqoop-1.2.0-CDH3B4.tar.gz ，hadoop-0.20.2-CDH3B4.tar.gz 到某目录如/home/hadoop/,解压后的目录为.

从hbase(hive)将数据导出到mysql

- - CSDN博客云计算推荐文章

在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中，提到sqoop可以让RDBMS和HDFS之间互导数据，并且也支持从mysql中导入到HBase，但从HBase直接导入mysql则不是直接支持，而是间接支持. 要么将HBase导出到HDFS平面文件，要么将其导出到Hive中，再导出到mysql.

深入学习《Programing Hive》：数据压缩

- - 互联网 - ITeye博客

Hive使用的是Hadoop的文件系统和文件格式，比如TEXTFILE，SEQUENCEFILE等. 在Hive中对中间数据或最终数据数据做压缩，是提高数据吞吐量和性能的一种手段. 对数据做压缩，可以大量减少磁盘的存储空间，比如基于文本的数据文件，可以将文件压缩40%或更多，同时压缩后的文件在磁盘间传输和I/O也会大大减少；当然压缩和解压缩也会带来额外的CPU开销，但是却可以节省更多的I /O和使用更少的内存开销.

hive-2 数据加载方式

- - 互联网 - ITeye博客

1 hive数据加载方式：. b) 用查询语句向表中插入数据. a) 使用LOAD DATA方式加载数据详解：. LOAD DATA 【LOCAL】 INPATH ‘....’ 【OVERWRITE】 INTO TABLE t1 【PARTITION (...)】 eg: load data local inpath '/usr/local/data/user' into table jiuye partition(grade='1');.

[转][转]使用 Hive 构建数据库

- - heiyeluren的blog（黑夜路人的开源世界）

当您需要处理大量数据时，存储它们是一个不错的选择. 令人难以置信的发现或未来预测不会来自未使用的数据. 用 Java™ 编程语言编写复杂的 MapReduce 程序要耗费很多时间、良好的资源和专业知识，这正是大部分企业所不具备的. 这也是在 Hadoop 上使用诸如 Hive 之类的工具构建数据库会成为一个功能强大的解决方案的原因.

【转载】Hive 数据倾斜总结

- - SQL - 编程语言 - ITeye博客

转载：http://www.tbdata.org/archives/2109. 几个比较特殊的点都提到了，大家可以作为参考. 在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显. 主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低.

Hive几种导出数据方式

- - 编程语言 - ITeye博客

如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以. --不能使用insert into local directory来导出数据，会报错. --只能使用insert overwrite local directory来导出数据. --hive0.11版本之前，只能使用默认分隔符^A(ascii码是\00001).