学习笔记：Twitter核心数据类库团队的Hadoop优化经验

标签： IT技术 Hadoop Twitter | 发表时间：2015-07-17 09:49 | 作者：foreach_break

出处：http://blog.jobbole.com

一、来源

Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter

(Data platform @Twitter)

二、观后感
2.1 概要
此稿介绍了Twitter的核心数据类库团队，在使用Hadoop处理离线任务时，使用的性能分析方法，及由此发现的问题和优化手段，对如何使用JVM/HotSpot profile（-Xprof）分析Hadoop Job的方法调用开销、Hadoop配置对象的高开销、MapReduce阶段的排序中对象序列化/反序列的高开销问题及优化等给出了实际可操作的方案。

其介绍了Apache Parquet这一面向列的存储格式，并成功应用于列投影（column project），配合predicated push-down技术，过滤不需要的列，极大提高了数据压缩比和序列化/反序列化的性能。
纯干货。32个赞！

2.2 优化总结
1) Profile！（-Xprofile）性能优化不能靠猜，而应靠分析！
2) 序列化开销很大，但是Hadoop里有许多序列化（操作）！
3) 根据特定（数据）访问模式，选择不同的存储格式（面向行还是面向列）！
4) 使用column projection。
5) 在Hadoop的MR阶段，排序开销很大，使用Raw Comparators以降低开销。
注：此排序针对如Comparator，其会引发序列化/反序列化操作。
6) I/O并不一定就是瓶颈。必要的时候要多I/O换取更少的CPU计算。

JVM/HotSpot原生profile能力（-Xprof），其优点如下：
1) 低开销（使用Stack sampling）。
2) 能揭示开销最大的方法调用。
3) 使用标准输出（Stdout）将结果直接写入Task Logs。

2.3 Hadoop的配置对象

1) Hadoop的Configuration Object开销出人意料的高。
2) Conf的操作看起来就像一个HashMap的操作。

3) 构造函数：读取+解压+分析一个来自磁盘的XML文件

4) get()调用引起正则表达式计算，变量替换。

5) 如果在循环中对上述等方法进行调用，或者每秒一次调用，开销很高.某些(Hadoop)Jobs有30%的时间花在配置相关的方法上！（的确是出人意料的高开销）

总之，没有profile(-Xprof)技术，不可能获取以上洞察，也不可能轻易找到优化的契机和方向，需要使用profile技术来获知I/O和CPU谁才是真正的瓶颈。

2.4 中间结果的压缩

Xprof揭示了spill线程中的压缩和解压缩操作消耗了大量时间。
中间结果是临时的。
使用lz4方法取代lzo level 3，减少了30%多的中间数据，使其能被更快地读取。
并使得某些大型Jobs提速150%。

2.5 对记录的序列化和反序列，会成为Hadoop Job中开销最高的操作！

2.6 对记录的序列化是CPU敏感的，相对比之下，I/O都不算什么了！

2.7 如何消除或者减小序列化/反序列化引起的（CPU）开销？
2.7.1 使用Hadoop的Raw Comparator API（来比较元素大小）
开销分析：如下图所示，Hadoop的MR在map和reduce阶段，会反序列化map结果的keys以在此阶段进行排序。

（反序列化操作）开销很大，特别是对于复杂的、非原语的keys，而这些keys又很常用。

Hadoop提供了一个RawComparator API，用于对已序列化的（原始的）数据（字节级）进行比较：

不幸的是，需要亲手实现一个自定义的Comparator。

现在，假设数据已序列化后的字节流，本身是易于比较的：
Scala有个很拉风的API，Scala还有一些宏可以产生这些API，以用于：
Tuples , case classes , thrift objects , primitives , Strings,等等数据结构。

怎么拉风法呢？首先，定义一个密集且易于比较的数据序列化（字节）格式：

其次，生成一个用于比较的方法，以利用这种数据格式的优势：

下图是采用上述优化手段后的比较开销对比：

提速到150%！
接着优化！

2.7.2 使用column projection
不要读取不需要的列：

1) 可使用Apache Parquet（列式文件格式）。

2) 使用特别的反序列化手段可以在面向行的存储中跳过一些不需要的字段。

面向列的存储中，一整列按顺序存储（而不是向面向行的存储那样，列是分开存储的）：

可以看到，面向列的存储，使得同类型的字段被顺序排在一起（易于压缩）：

采用Lzo + Parquet，文件小了2倍多！

2.7.3 Apache Parquet
1) 按列存储，可以有效地进行列投影（column projection）。
2) 可按需从磁盘上读取列。
3) 更重要的是：可以只反序列化需要的列！

看下效果：

可以看到，列数越少，Parquet的威力越大，到40列时，其效率反而不如Lzo Thrift。

在读取所有列的情况下，Parquet一般比面向行的存储慢。
Parquet是种密集格式，其读性能和模式中列的数目相关，空值读取也消耗时间。
而面向行的格式（thrift）是稀疏的，所以其读性能和数据的列数相关，空值读取是不消耗时间的。

跳过不需要的字段，如下所示：

虽然，没有降低I/O开销
但是，可以仅将感兴趣的字段编码进对象中
相对于从磁盘读取 + 略过编码后字节的开销，在解码字符串时所花的CPU时间要高的多！

看下各种列映射方案的对比：

Parquet Thrift还有很多优化空间；Parquet在选取的列数小于13列之前，是更快的；此模式相对平坦，且大多数列都被生成了。

还可以采用Predicate Push-Down策略，使得Parquet可以跳过一些不满足过滤条件的数据记录。
Parquet存储了一些统计信息，比如记录的chunks，所以在某些场景下，可以通过对这些统计信息进行读取分析，以跳过整个数据块（chunk）。

注：左图为column projection，中图为predicate push-down过滤，右图为组合效果。可以看到很多字段被跳过了，那绝壁可以优化序列化/反序列化的效率。

下图则展示了push-down过滤 + parquet的优化成效：

2.8 结语
感叹：Twitter真是一家伟大的公司！
上述优化手段，集群越大、Hadoop Job越多，效果越明显！

相关文章

学习笔记：Twitter核心数据类库团队的Hadoop优化经验，首发于博客 - 伯乐在线。

相关 [学习笔记 twitter] 推荐：

学习笔记：Twitter核心数据类库团队的Hadoop优化经验

- - 博客 - 伯乐在线

此稿介绍了Twitter的核心数据类库团队，在使用Hadoop处理离线任务时，使用的性能分析方法，及由此发现的问题和优化手段，对如何使用JVM/HotSpot profile（-Xprof）分析Hadoop Job的方法调用开销、Hadoop配置对象的高开销、MapReduce阶段的排序中对象序列化/反序列的高开销问题及优化等给出了实际可操作的方案.

向Twitter Bootstrap 学习什么？

- junyu - 知乎的博客

什么是 Twitter Bootstrap. Twitter 有一位风格清新的设计师 Mark Otto（此人之前在 Zurb）[1]，他负责了很多 Twitter 非前台的页面设计，比如 Dev、Support 和 Promoted Products 的设计. 去年，Mark 在自己网站发布了一套基于 Less [2] 框架的工具合集（mixins）—— Bootstrap.less [3]，方便前端开发（静态部分）.

shell 学习笔记

- tiger - 游戏人生

将脚本目录加到 PATH 中. 在 dash 中如何进行字符串替换. 将 rst 格式文档转换为 blog 可用的 html 代码. shell 脚本虽然不是非常复杂的程序, 但对于首次接触的我来讲, 多少还是有些忌惮. 不过, 接触任何新事物都需要勇敢面对, 逐步树立信心. 我是冲着把脚本写好去的, 所以, 我的目标是能够写出友好, 健壮, 优美的脚本..

OAuth学习笔记

- 宋大妈 - FeedzShare

来自: 标点符 - FeedzShare . 发布时间:2011年08月29日, 已有 2 人推荐. OAuth（开放授权）是一个开放标准，允许用户让第三方应用访问该用户在某一网站上存储的私密的资源（如照片，视频，联系人列表），而无需将用户名和密码提供给第三方应用. OAuth允许用户提供一个令牌，而不是用户名和密码来访问他们存放在特定服务提供者的数据.

Vim学习笔记

- 临池学书 - C++博客-首页原创精华区

最近在学习Vimtutor中的相关内容，Vim的使用博大精深，很多命令一旦不使用就会忘记，下面把其中的没有使用到的相关命令做一个简单的总结，供以后复习使用. 至于常见的保存，插入等等命令，则不予记录，在以后的使用中加深练习即可. To change until the end of a word, type ce (ce + 修正的单词).

OAuth学习笔记

- jiaosq - 标点符

OAuth（开放授权）是一个开放标准，允许用户让第三方应用访问该用户在某一网站上存储的私密的资源（如照片，视频，联系人列表），而无需将用户名和密码提供给第三方应用. OAuth允许用户提供一个令牌，而不是用户名和密码来访问他们存放在特定服务提供者的数据. 每一个令牌授权一个特定的网站（例如，视频编辑网站)在特定的时段（例如，接下来的2小时内）内访问特定的资源（例如仅仅是某一相册中的视频）.

HTML学习笔记

- - CSDN博客推荐文章

超文本标记语言（英文：HyperText Markup Language，HTML）是为“ 网页创建和其它可在网页浏览器中看到的信息”设计的一种标记语言. HTML被用来结构化信息——例如标题、段落和列表等等点击打开链接. w3schools 点击打开链接 {语法大全，超赞.

jQuery学习笔记

- - ITeye博客

什么是jQuery,它能为我们做什么. jQuery是一个javascript类库或称之为javascript框架. 无需刷新页面从服务器获取信息. 简化常见的javascript任务. 为什么会如此流行或说得到大量用户群的支持：. 多重操作集于一行（避免使用临时变量或不必要的重复代码）. jQuery利用了CSS选择符的能力，在DOM中快捷而轻松地获取元素或元素集合.

JdbcTemplate学习笔记

- - SQL - 编程语言 - ITeye博客

1、使用JdbcTemplate的execute()方法执行SQL语句. 2、如果是UPDATE或INSERT,用update()方法. JdbcTemplate将我们使用的JDBC的流程封装起来，包括了异常的捕捉、SQL的执行、查询结果的转换等等. spring大量使用Template Method模式来封装固定流程的动作，XXXTemplate等类别都是基于这种方式的实现.

Disruptor 学习笔记

- - 开源软件 - ITeye博客

Disruptor 是一个高性能异步处理框架，也可以认为是一个消息框架，它实现了观察者模式. Disruptor 比传统的基于锁的消息框架的优势在于：它是无锁的、CPU友好；它不会清除缓存中的数据，只会覆盖，降低了垃圾回收机制启动的频率. Disruptor 为什么快. 通过内存屏障和原子性的CAS操作替换锁.