监控系统状态
使用w命令查看当前系统的负载
具体用法
w命令用于显示已经登陆系统的用户列表,并显示用户正在执行的指令。执行这个命令可得知目前登入系统的用户有那些人,以及他们正在执行的程序。单独执行w命令会显示所有的用户,您也可指定用户名称,仅显示某位用户的相关信息。
第一行从左至右显示为:当前时间,系统启动到现在的时间,登录用户的数目,系统在最 近1、5和15分钟的平均负载
第二行显示为:
USER —登录的用户名
TTY —登录后系统分配的终端号
FROM—远程主机名,即从哪儿登录来的
LOGIN@—何时登录
IDLE—空闲了多长时间,表示用户闲置的时间。这是一个计时器,一旦用户执行任何操作,该计时器便会被重置
JCPU—和该终端(tty)连接的所有进程占用的时间,这个时间里并不包括过去的后台作业时间,但却包括当前正在运行的后台作业所占用的时间
PCPU—指当前进程(即在WHAT项中显示的进程)所占用的时间
WHAT—当前正在运行进程的命令行注:
load average: 第1个数值表示1分钟内系统的平均负载值,
第2个数值表示5分钟内系统的平均负载值,
第3个数值表示15分钟内系统的平均负载值。
系统平均负载值:单位时间内是引用CPU的活动进程数(1分钟内),值越大说明服务器压力越大。一般情况下,值不超过服务器的CPU数量就没有问题,如:CPU数量为8,值小于8即可,否则需要关注
查看服务器包含几个CPU
/proc/cpuinfo 文件记录了CPU的详细信息。
grep -c 'processor' /proc/cpuinfo 查看有几颗物理CPU
[root@localhost ~]# cat /proc/cpuinfo
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 158
model name : Intel(R) Core(TM) i5-8300H CPU @ 2.30GHz
stepping : 10
microcode : 0xca
cpu MHz : 2303.999
cache size : 8192 KB
physical id : 0
siblings : 2
core id : 0
cpu cores : 2
apicid : 0
initial apicid : 0
fpu : yes
fpu_exception : yes
cpuid level : 22
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon nopl xtopology tsc_reliable nonstop_tsc eagerfpu pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch arat fsgsbase tsc_adjust bmi1 avx2 smep bmi2 invpcid mpx rdseed adx smap clflushopt xsaveopt xsavec xsaves
bogomips : 4607.99
clflush size : 64
cache_alignment : 64
address sizes : 43 bits physical, 48 bits virtual
power management:
processor : 1
vendor_id : GenuineIntel
cpu family : 6
model : 158
model name : Intel(R) Core(TM) i5-8300H CPU @ 2.30GHz
stepping : 10
microcode : 0xca
cpu MHz : 2303.999
cache size : 8192 KB
physical id : 0
siblings : 2
core id : 1
cpu cores : 2
apicid : 1
initial apicid : 1
fpu : yes
fpu_exception : yes
cpuid level : 22
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon nopl xtopology tsc_reliable nonstop_tsc eagerfpu pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch arat fsgsbase tsc_adjust bmi1 avx2 smep bmi2 invpcid mpx rdseed adx smap clflushopt xsaveopt xsavec xsaves
bogomips : 4607.99
clflush size : 64
cache_alignment : 64
address sizes : 43 bits physical, 48 bits virtual
power management:
注:
目前市面上的服务器很多是2颗多核CPU,在linux中,它就是2*n个CPU(n为单颗物理CPU上有几核)。若n为4,则查看这个文件时会显示8段类似信息,而最后一段信息的processor:后会显示7。
用vmstat命令监控系统的状态
具体用法
vmstat命令的含义为显示虚拟内存状态(“Viryual Memor Statics”),但是它可以报告关于进程、内存、I/O等系统整体运行状态。
vmstat查看系统状态
格式
[root@localhost ~]# vmstat 1 //每隔一秒输出一次状态 Ctrl+C 退出
[root@localhost ~]# vmstat 1 5 //每隔一秒输出一次状态共输出五次
图中各参数表示含义
Procs(进程的相关信息)
*r(run): 表示运行或等待CPU时间片的进程数。运行队列中进程数量,这个值也可以判断是否需要增加CPU。(长期大于1,且该数值若长期大于CPU个数则说明CPU资源不够用)
*b(block): 表示等待资源的进程数,等待I/O的进程数量和内存数。(若该数值长期大于1需要关注)
Memory(内存的相关信息)
swpd: 表示切换到交换分区中的内存数量,单位KB。使用虚拟内存大小,虚拟内存已使用的大小,如果大于0,表示你的机器物理内存不足了,如果不是程序内存泄露的原因,那么该升级内存了或者把耗内存的任务迁移到其他机器。若swpd的值不为0,但是SI,SO的值长期为0,这种情况不会影响系统性能。
free: 表示空闲内存数量,单位KB,及空闲物理内存大小。
buff: 表示即将写入磁盘的缓存大小,单位KB,用作缓冲的内存大小。
cache: 表示从磁盘中读取的缓存大小,单位KB,用作缓存的内存大小,如果cache的值大的时候,说明cache处的文件数多,如果频繁访问到的文件都能被cache处,那么磁盘的读IO会非常小。
Swap(内存的交换情况)
*si: 表示有交换区写入内存的数据量,单位KB,每秒从交换区写到内存的大小,由磁盘调入内存。
*so: 表示有内存写入交换分区的数据量,单位KB,每秒写入交换区的内存大小,由内存调入磁盘。
注意:内存够用的时候,这2个值都是0,如果这2个值长期大于0时,系统性能会受到影响,磁盘IO和CPU资源都会被消耗。有些朋友看到空闲内存(free)很少的或接近于0时,就认为内存不够用了,不能光看这一点,还要结合si和so,如果free很少,但是si和so也很少(大多时候是0),那么不用担心,系统性能这时不会受到影响的。
IO(磁盘的使用情况)
*bi: 表示从块设备读取数据的量(读磁盘)每秒读取的块数
*bo: 表示从块设备写入数据的量(写磁盘)每秒写入的块数
注意:随机磁盘读写的时候,这2个值越大(如超出1024k),能看到CPU在IO等待的值也会越大。bi和bo一般都要接近0,不然就是IO过于频繁,需要调整。
system(系统,采集间隔内发生的中断次数)
in: 表示在某一时间间隔内观测到的美妙设备的中断次数,每秒中断数,包括时钟中断。
cs: 每秒上下文切换数。例如我们调用系统函数,就要进行上下文切换,线程的切换,也要进程上下文切换,这个值要越小越好,太大了,要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中,我们一般做性能测试时会进行几千并发甚至几万并发的测试,选择web服务器的进程可以由进程或者线程的峰值一直下调,压测,直到cs到一个比较小的值,这个进程和线程数就是比较合适的值了。系统调用也是,每次调用系统函数,我们的代码就会进入内核空间,导致上下文切换,这个是很耗资源,也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换,导致CPU干正经事的时间少了,CPU没有充分利用,是不可取的
注意:上面2个值越大,会看到由内核消耗的CPU时间会越大。
CPU(CPU的使用状态,以百分比表示)
us: 显示用户下所花费CPU的时间百分比,用户进程执行时间百分比(user time)
us的值比较高时,说明用户进程消耗的CPU时间多,但是如果长期超50%的使用,那么我们就该考虑优化程序算法或者进行加速。
sy: 显示系统花费CPU的时间百分比,内核系统进程执行时间百分比(system time)
系统CPU时间,如果太高,表示系统调用时间长,例如是IO操作频繁。sy的值高时,说明系统内核消耗的CPU资源多,这并不是良性表现,我们应该检查原因。
*wa: 表示I/O等待所占用CPU的时间百分比,IO等待时间百分比
wa的值高时,说明IO等待比较严重,这可能由于磁盘大量作随机访问造成,也有可能磁盘出现瓶颈(块操作)。
id: 表示CPU处于空现状态的时间百分比,空闲时间百分比
st:表示被偷走的CPU所占百分比(一般为0,不做关注)
注:
上述各参数常用r,b,wa,bi,bo,si,so
如果磁盘io压力很大,io部分中bi和bo的数值会比较高。
当si和so两列数值比较高并且不断变化时,说明内存不够用了,内存中的数据频繁交换到交换分区中,对系统性能影响极大。