Java应用线上排查总结

指示符	含义
PID	进程id
USER	进程所有者
PR	进程优先级
NI	nice值。负值表示高优先级，正值表示低优先级
VIRT	进程使用的虚拟内存总量，单位kb。VIRT=SWAP+RES
RES	进程使用的、未被换出的物理内存大小，单位kb。RES=CODE+DATA
SHR	共享内存大小，单位kb
S	进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
%CPU	上次更新到现在的CPU时间占用百分比
%MEM	进程使用的物理内存百分比
TIME+	进程使用的CPU时间总计，单位1/100秒
COMMAND	进程名称（命令名/命令行）

- - arccode

本文总结了一些常见的线上应急现象和对应排查步骤和工具. 分享的主要目的是想让对线上问题接触少的同学有个预先认知，免得在遇到实际问题时手忙脚乱. 毕竟作者自己也是从手忙脚乱时走过来的. 在线上应急过程中要记住，只有一个总体目标：尽快恢复服务，消除影响. 不管处于应急的哪个阶段，我们首先必须想到的是恢复问题，恢复问题不一定能够定位问题，也不一定有完美的解决方案，也许是通过经验判断，也许是预设开关等，但都可能让我们达到快速恢复的目的，然后保留部分现场，再去定位问题、解决问题和复盘.

Java应用运维

- - BlueDavy之技术blog

对于互联网产品或长期运行的产品而言，运维工作非常重要，尤其是在产品复杂了以后，在这篇blog中就来说下Java应用的运维工作（ps：虽然看起来各种语言做的系统的运维工作都差不多，但细节上还是会有很多不同，so本文还是只讲Java的）. 苦逼的码农按照需求开发好了一个全新的Java Web应用，该发布上线给用户用了，要把一个Java Web应用发布上线，首先需要搭建运行的环境，运行的环境需要有JDK、APPServer，在已经装好了os的机器上装上JDK和APPServer，开发好的Java Web应用可以用maven直接打成war或ear，将这个打好的包scp或其他方式到目标机器上，准备妥当，就差启动了.

Java应用线上排查总结

背景

CPU 利用率高/飙升

模拟

第一步：定位出问题的线程

方法 a: 传统的方法

方法 b: show-busy-java-threads

方法 c: arthas thread

后续

情况一：发现使用CPU最高的都是GC 线程。

情况二：发现使用CPU最高的是业务线程

常见现象：频繁 GC

回顾GC流程

GC 原因及定位

常见现象：线程池异常

常见问题和原因

常见问题恢复

Arthas

涉及工具

结语

参考

附录

top 命令显示的指示符的含义

声明

相关 [java 应用线上] 推荐：