我们可以用iostat 命令来监视系统输入/输出、设备负载,这通过观察与它们的平均传送速率相关的物理磁盘的活动时间
来实现。iostat 命令生成的报告可以用来更改系统配置,从而更好地平衡物理磁盘和适配器之间的输入/输出负载。当Linux系
统出现性能问题时,用iostat工具查看进程IO请求下发的数量、系统处理IO请求的耗时,进而分析进程与操作系统的交互过程
中IO方面是否存在瓶颈。
一、基本使用
安装命令: yum install sysstat
输入命令后会自动安装,依赖包没有安装时会提示,输入“ y ”即可。
1.iostat语法
用法:iostat [ 选项 ] [ <时间间隔> [ 次数 ] ]
参数 | 描述 |
-c | 显示CPU使用情况 |
-d | 显示磁盘使用情况 |
-N | 显示磁盘阵列(LVM)信息 |
-n | 显示NFS使用情况 |
-k | 输出结果以KB为单位显示 |
-m | 输出结果以MB为单位显示 |
-t | 报告每秒向终端读取/写入的字符数和CPU信息 |
-V | 显示版本信息 |
-x | 显示详细的统计信息 |
-p | 显示磁盘和分区的情况 |
2.单独执行iostat命令
由 iostat 命令生成的第一份报告提供了关于自从系统被引导后的时间统计信息,后继的每一份报告都包含自上一次
报告以来的时间。第一行依次显示系统版本信息、主机名、当前日期、CPU位数和CPU个数。
avg-cpu:总体cpu使用情况统计信息,对于多核cpu,这里为所有cpu的平均值。重点关注iowait值,表示CPU用于
等待io请求的完成时间,各参数介绍如下:
%user:CPU处在用户模式下的时间百分比
%nice:CPU处在带NICE值的用户模式下的时间百分比
%system:CPU处在系统模式下的时间百分比
%iowait:CPU等待输入输出完成时间的百分比
%steal:管理程序维护另一个虚拟处理器时,虚拟CPU的无意识等待时间百分比
%idle:CPU空闲时间百分比
Device:各磁盘设备的IO统计信息,参数介绍如下:
tps:该设备每秒的传输次数(Indicate the number of transfers per second that were issued to the device)。
“一次传输”意思是“一次I/O请求”,多个逻辑请求可能会被合并为“一次I/O请求”,“一次传输”请求的大小是未知的。
kB_read/s:每秒从设备(drive expressed)读取的数据量
kB_wrtn/s:每秒向设备(drive expressed)写入的数据量
kB_read:读取的数据总量
kB_wrtn:写入的数据总量
二、几种常见用法
1. iostat -c 1 5 查看CPU状态,指定时间间隔为1秒,总共显示5次。
如果%iowait的值过高,表示硬盘存在I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应
慢时,有可能是CPU等待分配内存,此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能
力相对较低,表明系统中最需要解决的资源是CPU。
2. iostat -d sda 查看指定磁盘信息
3. iostat -d -k 1 5 查看TPS和吞吐量信息
三、获取更详细的IO统计信息
我们可以使用命令 iostat -x -d -k 1 5 来查看设备响应率(%util)和响应时间(await)。
rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候,VFS将请求发到各个FS,
如果FS发现不同的读取请求读取的是相同Block的数据,FS会将这个请求合并Merge)
wrqm/s:每秒这个设备相关的写入请求有多少被Merge了
r/s:每秒完成的读次数(The number of read requests that were issued to the device per second)
w/s:每秒完成的写次数(The number of write requests that were issued to the device per second)
rkB/s:每秒读数据量(kB为单位)
wkB/s:每秒写数据量(kB为单位)
avgrq-sz:平均每次IO操作的数据量(扇区数为单位)
avgqu-sz:平均等待处理的IO请求队列长度
await:每一个IO请求的处理的平均时间(毫秒为单位)。这里可以理解为IO的响应时间,一般地系统IO响应时间
应该低于5ms,如果大于10ms就比较大了。
r_await:读取请求的平均时间(毫秒为单位)
w_await:写入请求的平均时间(毫秒为单位)
svctm:平均每次IO请求的处理时间(毫秒为单位)
%util:在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8秒在处理IO,
而0.2秒闲置,那么该设备的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度。一般地,如果该参数是
100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁
盘使用未必就到了瓶颈)。