线上服务器内存使用量已达到90%报警(内存泄漏)

标签: 线上 服务器 内存 | 发表时间:2016-05-09 00:57 | 作者:bert82503
出处:http://www.iteye.com

2016-05-06中午11:56,收到“[sentry2]2016-05-06 11:56:09 xxxxxxhost xxx.xxx.xxx.xxx 内存使用已达到90.18%”报警。首先在脑海浮现的, 应该哪里出现内存泄漏了

 

一、确认问题

马上到 Sentry 监控系统查看了该服务的“ 服务器监控”指标,发现其中2台机器的 内存使用量都超过了90%,另外2台尽然没有监控数据(以前是有的)。

Sentry服务器监控

对于另外2台服务器没有监控数据,只好先登上去查看确认一下喽。通过“ free -m”确认,线上服务器总内存共 7872MB,使用了 7098MB,还有 773MB(= 406 + 151 + 216) 空闲着,使用率为 90.16%(= 7098 / 7872)。(参考: free(1) - Linux manual pageLinux Used内存到底哪里去了? | 褚霸-余锋

线上服务器内存使用量

从问题表现来看,该业务的4台机器都出现“ 内存使用量都超过了90%”。

 

二、排查问题

1. 对比一下该业务“ 服务器内存占用百分比”的历史状况

1.1 3月26日业务刚上线时,服务器内存占用百分比是 45%。
【服务器内存占用百分比】3月26日,业务刚上线时是45%

 

1.2 4月14日之前,服务器内存占用百分比稳定在 48%
【服务器内存占用百分比】4月14日之前,稳定在48%
 

 1.3 4月15日,服务器内存占用百分比突然从 48% 升到 61%

 

1.4 4月17日,服务器内存占用百分比稳定在 67%

 

1.5 4月18日到5月2日期间,服务器内存占用百分比稳定在 68%

 

1.6 5月3日直到5月6日的报警期间,服务器内存占用百分比又从 68% 升到 90%

 

从“ 服务器内存占用百分比”历史数据的异常时间点(4月17日、5月3日)来看,我们自己都没有发布上线过代码,说明不是我们引起的。

 

2. 查看 Sentry 监控系统的“ 进程监控”指标,运维同学发现 logagent 进程内存占用了 580MB。他们刚优化了 logagent 组件,1分钟在线平滑升级后(线上业务服务不需要重启),内存从 580MB 降到 54MB,还是很可观的。这样 服务器的空闲内存又多出了500+MB,为排查线上问题流出了更多的时间。(当时 做得不够好的地方,应该 只保留一台作为现场排查问题,重启其他机器,避免线上可能因为所有机器 OOM 而导致整个服务不可用)(当时我们都没看到 sentry_agent 进程占用了近 1.3GB 惊讶

 

 

 3. 内存泄漏的可能性最大,先验证之

向有经验的同学请教,说内存使用量飙高,一般都是 内存泄漏引起的。因为我们线上服务使用 Java 语言开发,所以先从 JVM 垃圾收集器 GC 入手,可以比较直观地看出 JVM 内存状况。( jstat -gcutil `pgrep -u mapp java` 1s

 

上图输出的每个字段的含义见 jstat -gcutil 命令参考文档。从上图看, Eden 区Eden Space (heap))内存占用每秒增长 1.5%, Survivor 区Survivor Space (heap),S0、S1)内存占用在一次垃圾收集后增长 1.2%, Old 区Tenured Generation (heap))内存占用在一次垃圾收集后增长 0.57%, Perm 区Permanent Generation (non-heap))内存一直占用 59.97%。 Young GC 平均耗时为 96.7ms ( = 358.407 / 3705),Full GC 平均耗时为 74.4ms(= 7.587 / 102)。

从“ gc 监控”看,也没收到 Full GC 报警。同时查看 gc.log, ParNew GC 大约每隔几分钟触发一次, CMS GC 大约每隔5个小时触发一次,没有 Full GC。从 JVM 内存监控数据来看,说明 GC 都正常的。

 

3. 哪些进程用了那么多内存

从上面@褚霸在《 Linux Used内存到底哪里去了?》总结的: 内存的去向主要有3个:1. 进程消耗,2. slab消耗,3. pagetable消耗。

先看一下线上服务器的 JVM 配置( jps -lv):

 

2628 org. apache.catalina.startup.Bootstrap -Djava.util.logging.config.file=/home/mapp/spyder/.default/conf/logging.properties -Djava.util.logging.manager=org.apache.juli.ClassLoaderLogManager -Xms4g -Xmx4g -XX: PermSize=96m -XX: MaxPermSize=256m -Xmn2g -XX: SurvivorRatio=10 -XX:+ UseConcMarkSweepGC -XX:+ UseCMSCompactAtFullCollection -XX: CMSMaxAbortablePrecleanTime=5000 -XX:+CMSClassUnloadingEnabled -XX: CMSInitiatingOccupancyFraction=80 -XX:+ DisableExplicitGC -verbose:gc -Xloggc:/home/mapp/logs/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+UseCompressedOops -Djava.awt.headless=true -XX:+ HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/home/mapp/logs/java.hprof -XX: MaxDirectMemorySize=1g -XX:+ UseCMSInitiatingOccupancyOnly -XX:+ ExplicitGCInvokesConcurrent -Dsun.rmi.dgc.server.gcInterval=2592000000 -Dsun.rmi.dgc.client.gcInterval=2592000000 -Dsun. net.client.defaultConnectTimeout=10000 -Dsun. net.client.defaultReadTimeout=30000 -Dproject.name=xxxxxx -Djava.endorsed.dirs=/usr/local/tomcat/endorsed -D catalina.base=/home/mapp/spyder/.default -D catalina.home=/

从 JVM 配置来看,最大内存为 4GB。

 

接着就是通过“ top -M”(按 RES字段排序:按 f,然后再按 q)观察哪些进程占用的内存不正常。

 

top 命令的 VIRT 字段表示虚拟内存,而 RES 字段才表示实际的使用内存。从上图(数据是事后伪造的,因为没保存当时现场,但量级和当时事故现场差不多)可以很清晰地看到,java 进程占用了 4.1g 内存,和 JVM 配置一样;两个 sentry-agent 进程尽然分别占用了 1.6GB 和 1.2GB(好吓人)。

 sentry-agent 是一个收集日志的客户端,为什么会占用这么多的内存呢?向负责该服务的开发同学反馈,证实确实有问题,他们好像也发现问题了,他们答应当天下午修复问题。凭直觉,问题应该就出现在这里了。先让运维同学 重启了 sentry-agent 进程,内存占用百分比一下子就降到了 59%,说明 此问题的大部分原因是这里引起的。此数据 与4月15日吻合,但与最开始的48%数据还有差距,这个还需要进一步排查。因为从 GC 来看,自身应用程序没发现内存泄漏问题,需要深入探究一下。

 上述4台机器,前面2台使用 Docker 虚拟化,后面2台使用 KVM 虚拟化。内存占用百分比相差10+个点(相差 900+MB),注意是由于 slabs 消耗不一样引起的(参考@褚霸的文章)。

KVM 虚拟化:

$ echo `cat /proc/slabinfo |awk 'BEGIN{sum=0;}{sum=sum+$3*$4;}END{print sum/1024/1024}'` MB
139.037 MB

Docker 虚拟化:

$ echo `cat /proc/slabinfo |awk 'BEGIN{sum=0;}{sum=sum+$3*$4;}END{print sum/1024/1024}'` MB
1177.34 MB

 

问题解决前后,“内存占用百分比”对比图:
【服务器内存占用百分比】问题定位到后,从84%下降到59%


 看了其他监控指标,发现“ 服务器线程总数”从680下降到400,说明 sentry-agent 存在线程泄漏问题
确定问题后,重启sentry-agent进程,服务器线程总数从680下降到400
 

至此,本问题算是解决了大部分,线上服务器内存暴涨问题得到了解决。(在群里反馈,其他服务先前就已经出现了此问题,但一直没有去排查,我也是醉啦,就不担心出现 OOM 吗?就不担心整个服务都不可用吗?这个问题解决得到 Leader 的赞还是很开心滴)

 

写博客确实花很多时间和精力,但回顾问题整个处理过程并反思处理思路,还是有很多地方可以改进(不懂时就上网查资料,了解清楚),收获颇多。(感谢每一个问题!)

 

祝大家玩得开心!



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [线上 服务器 内存] 推荐:

线上服务器内存使用量已达到90%报警(内存泄漏)

- - Linux - 操作系统 - ITeye博客
2016-05-06中午11:56,收到“[sentry2]2016-05-06 11:56:09. xxxxxxhost xxx.xxx.xxx.xxx 内存使用已达到90.18%”报警. 首先在脑海浮现的, 应该哪里出现内存泄漏了. Sentry 监控系统查看了该服务的“ 服务器监控”指标,发现其中2台机器的 内存使用量都超过了90%,另外2台尽然没有监控数据(以前是有的).

Erlang服务器内存耗尽bug跟踪过程

- chuang - Erlang Display - 不求完美,学以致用
本文描述朋友Erlang服务器内存耗尽bug的解决过程. 首先说明一下问题,服务器1千多人在线,16G内存快被吃光. 查看节点的内存消耗在什么地方?. 显示内存大部分消耗在进程上,由此确定是进程占用了大量内存. (以输出text方式启动etop,其间隔为1秒,输出行数为20行,按照内存排序. 这里spawn一个新进程,目的是输出etop数据时不影响erlang shell 输入.).

sysbench测试MySQL服务器性能(cpu,io,内存,mysql等)

- - CSDN博客数据库推荐文章
Sysbench的安装请参考http://blog.csdn.net/mchdba/article/details/8951289. sysbench采用寻找最大素数的方式来测试CPU的性能. 首先生成需要的测试文件,文件总大小1000M,16个并发线程,随机读写模式. 执行完后会在当前目录下生成一堆小文件.

Erlang服务器内存吃紧的优化解决方法

- - CSDN博客系统运维推荐文章
问题提出:服务器100万人在线,16G内存快被吃光. 查看进程数目是否正常,是否超过了erlang虚拟机的最大进程数. 查看节点的内存瓶颈所在地方. 显示内存大部分消耗在进程上,由此确定是进程占用了大量内存. (以输出text方式启动etop,其间隔为1秒,输出行数为20行,按照内存排序. 这里spawn一个新进程,目的是输出etop数据时不影响erlang shell 输入.).

服务器内存带宽计算和使用情况测量(杀猫长文)

- coolzsb - Erlang非业余研究
原创文章,转载请注明: 转载自Erlang非业余研究. 本文链接地址: 服务器内存带宽计算和使用情况测量(杀猫长文). 前段时间我们在MYSQL调优上发现有瓶颈,怀疑是过多拷贝内存,导致内存带宽用完. 在Linux下内存的使用情况有top工具, IO设备的使用情况有iostat工具,就是没有内存使用情况的测量工具.

kernel.org服务器遭入侵

- Lamo - Solidot
kernel.org网站首页发布公告,声称多台服务器在本月初(8月12日前)遭黑客攻击,他们在8月28日发现了入侵. 入侵者利用一位用户凭证获得了服务器根访问权限,他们正在调查黑客是如何提升权限的;系统启动脚本被加入了一个木马启动文件;ssh相关文件被修改. kernel.org声称,他们相信Linux kernel源代码库未受影响,因为git分布式版本控制系统的特性决定了它可以很容易注意到代码变化.

Ubuntu下赌ARM服务器

- Tim - Solidot
今日无数手机平板使用的低能耗处理器能否撑起未来的服务器市场. Canonical计划推出支持ARM架构的Ubuntu服务器版本. Ubuntu Linux并不是x86服务器市场的重量级选手,Red Hat才是. 但通过与ARM合作打造ARM服务器,Canonical正努力赢得更多市场份额. 计划于2011年10月发布的Ubuntu Server 11.10,将同步推出支持x86、x86-64和ARM架构的版本.

Windows 搭建VPN服务器

- 洋白菜 - iGFW
Windows XP搭建PPTP VPN. 普通用户,在家里也可以搭建自己的VPN. 需要将服务器端的电脑直接放置于外网访问下,若是ADSL拨号的话,可以用此电脑直接拨号,中间不接路由器. 若是接路由器的话,可以启用NAT(网络地址转换)中的DMZ,将该服务器IP地址填入此处,那么外网访问到本路由Wan口时,就会直接转到该服务器上.

浅谈web服务器—Nginx

- - CSDN博客推荐文章
常见的web服务器有apache,Nginx,lighttpd等. 但Nginx作为一款高性能的Http和反向代理服务器,由于其高效率、简配置等优势在业内被广泛使用. 目前Taobao、新浪、赶集网、金山、豆瓣网、网易新闻等众多知名互联网企业的服务器都是采用Nginx. 根据url的不同,将HTTP请求转发到后端的应用服务器集群.

centos linux 服务器安全

- - 操作系统 - ITeye博客
我们必须明白:最小的权限+最少的服务=最大的安全. 所以,无论是配置任何服务器,我们都必须把不用的服务关闭、把系统权限设置到最小话,这样才能保证服务器最大的安全. 下面是CentOS服务器安全设置,供大家参考. 一、注释掉系统不需要的用户和用户组. 注意:不建议直接删除,当你需要某个用户时,自己重新添加会很麻烦.