Linux系统和性能监控

标签: linux 系统 性能 | 发表时间:2014-04-09 15:12 | 作者:
出处:http://m635674608.iteye.com

4.0 CPU性能监控

CPU性能表现如何一般从三个方面来衡量:运行队列、利用率和上下文切换。正如前文所提及的,性能表现的好坏和基线数据(或预期)是密不可分的。对大部分系统而言,一些基本的性能预期如下:

  • 运行队列——每个处理器运行队列中不应该超过1-3个线程。例如,一个双核的系统中,运行队列长度不应该超过6。(译注:即一个系统的load average值不应该大于核数的4倍。)
  • CPU利用率——假如CPU被充分利用了,那么必须达到以下的占比划分:
    • User Time占65%-70%
    • System Time占30%-35%
    • Idle占0%-5%
  • 上下文切换——上下文切换的次数和CPU利用率相关。假设CPU利用率达到了上述的占比划分,大量的上下文切换也是可以接受的。

Linux系统有很多工具可以用来统计这些指标。我们将首先来看vmstat和top。

 

4.1 vmstat工具的使用

vmstat带来的额外性能开销很小,因此,在一个高负载系统上一直运行该工具是可行的,即使你并不想长久地统计它的性能数据。该工具有两种运行模 式:统计模式和采样模式。采样模式每隔一个指定的时间间隔会统计和输出一个结果。这种模式在统计一个持久负载下的性能数据时非常有用。下面是一个 vmstat在指定时间间隔为1秒时的输出示例:

image

上面输出中CPU相关各列的意义如下:

列名 含义
r 运行队列的长度,即等待执行的线程数目
b 处于阻塞状态或者等待IO完成状态的线程数目
in 系统中断的数目
cs 上下文切换的数目
us CPU执行用户态线程的时间占比
sys CPU执行系统态线程占用的时间占比,包含内核和中断两部分
wa CPU处于等待状态的时间占比(CPU等待状态即所有线程都处于被阻塞或者等待IO完成状态)
id CPU处于完全空闲状态的时间占比

 

4.2 案例分析:CPU的持续耗用

在下面的案例中,系统CPU已经被完全用尽。

image

从上面输出,我们可以得出以下推论:

  • 系统中有大量的中断和少数的上下文切换,看起来是某个进程正在请求访问硬件设备。
  • CPU用户态耗用占了85%以上,同时只有少量的上下文切换,进一步证明了有一个进程一直在占用CPU。
  • 运行队列长度达到可以接受的上限,甚至在几个瞬间已经超过了这个上限。

4.3 案例分析:调度器过载

在下面的案例中,内核调度器一直忙于上下文切换。

image

从上面的输出,我们可以得出以下推论:

  • 上下文切换的次数远大于中断的次数。内核必须消耗大量的时间用于上下文切换。
  • 大量的上下文切换导致了CPU利用率的不平衡。从用户态CPU占用极低和Wait IO态CPU占用极高可以明显看出来。
  • 因为CPU处于等待IO状态,运行队列开始堆积,等待IO的线程数也开始堆积。

4.4 mpstat工具的使用

如果系统有多个处理器内核,你可以使用mpstat命令来监控各个核。Linux内核把双核处理器看作为两个处理器。因此,一个双核双处理器系统会 被认为有4个处理器。mpstat提供了vmstat类似的CPU统计功能,不过mpstat还按CPU核的粒度提供了统计数据。

image

 

4.5 案例分析:未充分使用的处理器负载

在下面的案例中,系统有4个CPU内核,有两个CPU耗用型的进程将其中两个核(CPU0和CPU1)充分利用,第三个核正在执行内核和系统调用(CPU3),第四个核(CPU2)处于空闲状态。

Top命令显示了有3个进程(nobody、mysql、apache)几乎各自占用了其中的一整个CPU内核:

image

image

你可以通过ps命令的PSR字段判断哪一个进程占用了哪一个CPU内核。

image

 

4.6 结论

CPU的性能监控包含如下要点:

  • 检查运行队列,保证每个处理器的运行队列长度不超过3。
  • 保证CPU的利用率在用户态和系统态的比例在70/30和65/35之间。
  • 如果CPU在系统态所花的时间更多,可能不仅仅是过载的原因,尝试重新设置一下进程的优先级
  • 运行IO型的进程比运行CPU型的进程更有收益(译注:是指在CPU利用率较高时?)

转载至:http://www.cnblogs.com/wujianlundao/archive/2013/01/03/2843072.html



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [linux 系统 性能] 推荐:

linux 系统性能指标

- - 非技术 - ITeye博客
近段时间,再忙着找实习,经常被问到的,关于linux系统性能的指标,比如对于一台linux机器来说,怎么监控它的CPU,内存,负载等情况;怎样算高负载,具体的依据是什么. 等等这类问题,下面就好好总结一下这方面知识吧~. 由于能力有限,可能总结的不是很全面,不是很正确,有错漏的,欢迎大家帮忙指出,谢谢.

Linux 和 Android 系统性能分析

- - CSDN博客综合推荐文章
作为一名Linux 或 Android 平台的系统工程师,在开发系统新功能外,主要工作就是优化系统性能,使系统上以最优的状态运行,但是由于硬件问题、软件问题、网络环境等的复杂性和多变性,导致对系统的优化变得异常复杂,如何定位性能问题出在哪个方面,是性能优化的一大难题, 从系统入手,阐述由于系统软、硬件配置不当可能造成的性能问题,并且探讨检测系统故障和优化性能的一般方法和流程.

Linux系统和性能监控

- - zzm
CPU性能表现如何一般从三个方面来衡量:运行队列、利用率和上下文切换. 正如前文所提及的,性能表现的好坏和基线数据(或预期)是密不可分的. 对大部分系统而言,一些基本的性能预期如下:. 运行队列——每个处理器运行队列中不应该超过1-3个线程. 例如,一个双核的系统中,运行队列长度不应该超过6. (译注:即一个系统的load average值不应该大于核数的4倍.

Linux内存盘提升系统性能手记

- - 企业架构 - ITeye博客
公司已经有一套运行多年的信息系统. 系统开发由于赶进度,开发时使用了堆字段,各种关联的方式来设计. 经常出现了5百行以上的SQL语句,经常系统性能不佳,用户报怨系统卡与慢. 经过分析,有多个SQL语句经常超过20秒钟,并且一些批量的操作,会让oracle假死. 由此不得不重启数据库,以便恢复系统正常.

理解Linux操作系统——分析性能瓶颈

- - 小火箭
通过每次只修改一个地方来解决瓶颈问题. 回到第3步直到对系统的性能满意为止. 应该记录下调优的操作,特别是对性能有影响的操作. 通常,你能得到的第一手信息就是关于问题的描述. 对问题进行探索性地提问和记录是非常重要的. 这里有一些问题有助于你对系统有一个更好的了解:. 服务器系统类型、版本、配置是什么.

Linux系统监控

- - CSDN博客系统运维推荐文章
查看所有的进程和端口使用情况:. 查看nginx并发(连接数)进程数:. 查看当网络连接状态中,已建立连接的数量:. 查看系统tcp连接中各个状态的连接数. 输出每个ip的连接数,以及总的各个状态的连接数. df -hl 查看磁盘使用情况 . df -hl 查看磁盘剩余空间. df -h 查看每个根路径的分区大小.

Linux 性能优化

- - Gsion&apos;s Blog
1) Linux Proc文件系统,通过对Proc文件系统进行调整,达到性能优化的目的. 2) Linux性能诊断工具,介绍如何使用Linux自带的诊断工具进行性能诊断. 加粗斜体表示可以直接运行的命令. 二、/proc/sys/kernel/优化. 该文件有一个二进制值,该值控制系统在接收到ctrl+alt+delete按键组合时如何反应.

Linux 开源车载系统 Automotive Grade Linux

- - 开源中国社区最新新闻
Google、苹果以及微软相继宣布为汽车中控台推出车载系统,近日Linux基金会宣布推出可定制,开源的车载系统平台 Automotive Grade Linux. 旨在成为未来车载系统开源标准平台. 目前早期版本的AGL已提供下载. Automotive Grade Linux系统支持的汽车厂商以及品牌有捷豹、路虎、本田、日产等,同时也支持ATS、富士通、哈曼、英特尔、LG、NEC、松下三星等科技企业的车内产品.

Linux 性能分析工具 nmon for Linux

- - CSDN博客架构设计推荐文章
nmon 是 Nigel's performance Monitor for Linux on POWER, x86, x86_64, Mainframe & now ARM (Raspberry Pi) 的缩写,意思是 Nigel(nmon 的作者是 Nigel Griffiths) 的 Linux 性能检测器.

理解Linux系统负荷

- Adam - 阮一峰的网络日志
如果你的电脑很慢,你或许想查看一下,它的工作量是否太大了. 在Linux系统中,我们一般使用uptime命令查看(w命令和top命令也行). (另外,它们在苹果公司的Mac电脑上也适用. 你在终端窗口键入uptime,系统会返回一行信息. 这行信息的后半部分,显示"load average",它的意思是"系统的平均负荷",里面有三个数字,我们可以从中判断系统负荷是大还是小.