手把手教你 Spark 性能调优

- - ImportNew

上周四接到反馈，集群部分 spark 任务执行很慢，且经常出错，参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题. 看了下任务的历史运行情况，平均时间 3h 左右，而且极其不稳定，偶尔还会报错：. 在有限的计算下，job的运行时长和数据量大小正相关，在本例中，数据量大小基本稳定，可以排除是日志量级波动导致的问题：.

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整，本文主要分享的也是这两方面内容. Spark提供了一些基本的Web监控页面，对于日常监控十分有用. http://master:4040（默认端口是4040，可以通过spark.ui.port修改）可获得这些信息：（1）stages和tasks调度情况；（2）RDD大小及内存使用；（3）系统环境信息；（4）正在执行的executor信息.

Spark的性能调优

- - 四火的唠叨

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的. Data Serialization，默认使用的是Java Serialization，这个程序员最熟悉，但是性能、空间表现都比较差. 还有一个选项是Kryo Serialization，更快，压缩率也更高，但是并非支持任意类的序列化.

Spark&Spark性能调优实战

- - CSDN博客互联网推荐文章

Spark特别适用于多次操作特定的数据，分mem-only和mem & disk. 其中mem-only:效率高，但占用大量的内存，成本很高;mem & disk:内存用完后，会自动向磁盘迁移，解决了内存不足的问题，却带来了数据的置换的消费. Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析：.

浅谈 Spark 应用程序的性能调优

- - SegmentFault 最新的文章

Spark是基于内存的分布式计算引擎，以处理的高效和稳定著称. 然而在实际的应用开发过程中，开发者还是会遇到种种问题，其中一大类就是和性能相关. 在本文中，笔者将结合自身实践，谈谈如何尽可能地提高应用程序性能. 分布式计算引擎在调优方面有四个主要关注方向，分别是CPU、内存、网络开销和I/O，其具体调优目标如下：.

HBase性能调优

- - 学着站在巨人的肩膀上

我们经常看到一些文章吹嘘某产品如何如何快，如何如何强，而自己测试时却不如描述的一些数据. 其实原因可能在于你还不是真正理解其内部结构，对于其性能调优方法不够了解. 本文转自TaoBao的Ken Wu同学的博客，是目前看到比较完整的HBase调优文章. 原文链接：HBase性能调优. 因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果.

hbase性能调优

- - 数据库 - ITeye博客

1）、hbase.regionserver.handler.count：该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的GC，或者出现OutOfMemory，因此该值不是越大越好.

Hadoop性能调优

- - 开源软件 - ITeye博客

是否对任务进行profiling，调用java内置的profile功能，打出相关性能信息. 对几个map或reduce进行profiling. 非常影响速度，建议在小数据量上尝试. 1表示不reuse，-1表示无限reuse，其他数值表示每个jvm reuse次数. reuse的时候，map结束时不会释放内存.

MapReduce - 性能调优

- - CSDN博客云计算推荐文章

Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到最优. 对于一大批MapReduce程序，如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的. Combiner可减少Map Task中间输出的结果，从而减少各个Reduce Task的远程拷贝数据量，最终表现为Map Task和Reduce Task执行时间缩短.

Java 性能调优

- - 编程语言 - ITeye博客

1.用new关键词创建类的实例时，构造函数链中的所有构造函数都会被自动调用. 但如果一个对象实现了Cloneable接口，我们可以调用它的clone()方法. clone()方法不会调用任何类构造函数. 在使用设计模式（Design Pattern）的场合，如果用Factory模式创建对象，则改用clone()方法创建新的对象实例非常简单.

手把手教你 Spark 性能调优

0、背景

1、优化思路

（1）数据源大小差异

（2）代码本身逻辑缺陷

（3）参数设置不合理

（4）通过执行日志分析性能瓶颈

（5）其它优化角度

2、spark 初学者的一些误区

Refer：

相关文章

相关 [手把 spark 性能调优] 推荐：