Linux运维入门教程06-02 (系统的初始化和服务)

转载请注明来源"老男孩IT教育"
来源网址:https://www.sholdboyedu.com/new/401.html

本文主要记录一下 Linux系统上一些常用的系统监控工具,非常好用。控和调试性能问题是一个艰巨的任务,但用对了正确的工具有时也是很容易的。但是我们更要系统的进行学习。

  1. 系统监视和进程控制工具—top和free
  1. 掌握top命令的功能:top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。

  2. 了解使用top命令列出系统状态时,系统默认每5秒刷新一下屏幕上的显示结果。

  1. 第一行是任务队列信息

12:38:33

当前时间

up 50days

系统运行时间,格式为时:分

1 user

当前登录用户数

load average: 0.06, 0.60, 0.48

系统负载。 三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。

  1. 第二、三行为进程和CPU的信息

Tasks: 29 total

进程总数

1 running

正在运行的进程数

28 sleeping

睡眠的进程数

0 stopped

停止的进程数

0 zombie

僵尸进程数

Cpu(s): 0.3% us

用户空间占用CPU百分比

1.0% sy

内核空间占用CPU百分比

0.0% ni

用户进程空间内改变过优先级的进程占用CPU百分比

98.7% id

空闲CPU百分比

0.0% wa

等待输入输出的CPU时间百分比

0.0% hi

硬件中断占用CPU时间的百分比

0.0% si

软件中断占用CPU时间的百分比

  1. 第四五行为内存信息。

  2. 进程信息

列名

含义

PID

进程id

PPID

父进程id

RUSER

Real user name

UID

进程所有者的用户id

USER

进程所有者的用户名

GROUP

进程所有者的组名

TTY

启动进程的终端名。不是从终端启动的进程则显示为 ?

PR

优先级

NI

nice值。负值表示高优先级,正值表示低优先级

P

最后使用的CPU,仅在多CPU环境下有意义

%CPU

上次更新到现在的CPU时间占用百分比

TIME

进程使用的CPU时间总计,单位秒

TIME+

进程使用的CPU时间总计,单位1/100秒

%MEM

进程使用的物理内存百分比

VIRT

进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES

SWAP

进程使用的虚拟内存中,被换出的大小,单位kb。

RES

进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA

CODE

可执行代码占用的物理内存大小,单位kb

DATA

可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb

SHR

共享内存大小,单位kb

nFLT

页面错误次数

nDRT

最后一次写入到现在,被修改过的页面数。

S

进程状态。

        D=不可中断的睡眠状态

        R=运行

        S=睡眠

        T=跟踪/停止

        Z=僵尸进程

COMMAND

命令名/命令行

WCHAN

若该进程在睡眠,则显示睡眠中的系统函数名

Flags

任务标志,参考 sched.h

cpu利用率与load average

cpu是用来干活的,按照这个层面去理解,每个码农都是一个cpu

cpu利用率:上一天班的时间是8个小时,而码农敲代码的时间为2个小时,2/8=0.25 ,25%就是码农在一天的时间内的利用率(正常情况,cpu利用率<70%)

cpu负载:公司在一分钟内为某个码农安排了3个任务,而1分钟内该码农能做6个任务,那么该码农一分钟内的负载为0.5

如果公司在5分钟内为某个码农安排了100个任务,而5分钟内该码农只能做50个任务,那么该码农5分钟内的负载为2.0,即超负荷运转

cpu负载<=1:能正常应付

        cpu负载>1:超负荷运转

如果有4核,相当于将100个任务交给4个码农去干,如果每个码农的负载都是100%,那么整体的cpu负载达到4.0则是很正常的现象

        多核cpu, load average 应该 <= cpu核数 * 0.7

为何要有1分钟,5分钟,15分钟三种cpu负载?

其实之所以要给出3个值,就是希望我们能结合起来看。或者说希望展示一个动态的图表式的数据,比如最近一分钟显示负载120%。而最近5分钟和15分钟显示负载为50%。可能你不用太过担心。但是如果你发现系统的负载一直维持在120%以上,就必须要提高硬件配置了。

cpu利用率和cpu负载过高,都是不好的现象,但是也有可能出现,低利用率,高负载的情况:

为一个码农分配了100个项目,毫无疑问,该码农的负载是很高的,但是码农在具体去做一个项目时,可能会碰到需要购买机器,或者查询资料等耗费时间的问题,真正动手写代码的时间可能很短,而这段时间才是码农真正为公司干活的时间,如果每个项目都有类似这种问题,那么100个项目加到一起,码农真正工作的时间也不会太多,这就造成了低利用率。

在两种情况下会导致一个进程在逻辑上不能运行,

1. 进程挂起是自身原因,遇到I/O阻塞,便要让出CPU让其他进程去执行,这样保证CPU一直在工作

2. 与进程无关,是操作系统层面,可能会因为一个进程占用时间过多,或者优先级等原因,而调用其他的进程去使用CPU。

因而一个进程有三种状态

  1. 掌握free命令的功能:显示内存的使用状态。(下图centos6中查看效果,用二维数组代表FO即free output)

               1          2          3          4          5          6
    

1 total used free shared buffers cached

2 Mem: 24677460 23276064 1401396 0 870540 12084008

3 -/+ buffers/cache: 10321516 14355944

4 Swap: 25151484 224188 24927296

从操作系统的角度:

物理内存FO[2][1]=24677460KB

物理内存被使用的内存FO[2][2]=23276064KB

可以用内存F[2][3]=1401396KB

等式:FO[2][1] = FO[2][2] + FO[2][3]

共享内存F[2][4]=0,表示几个进程共享的内存(数据共享)

F[2][5]=870540表示已经分配但是还未使用的buffers大小

F[2][6]=12084008表示已经分配但是还未使用的buffers大小

buffer和cache的解释:

A buffer is something that has yet to be “written” to disk.

A cache is something that has been “read” from the disk and stored for later use.

也就是说buffer是用于存放要输出到disk(块设备)的数据的,而cache是存放从disk上读出的数据。这二者是为了提高IO性能的,并由OS管理。

Linux和其他成熟的操作系统(例如windows),为了提高IO read的性能,总是要多cache一些数据,这也就是为什么FO[2][6](cached memory)比较大,而FO[2][3]比较小的原因。我们可以做一个简单的测试

释放掉被系统cache占用的数据;

echo 3>/proc/sys/vm/drop_caches

读一个大文件,并记录时间;

关闭该文件;

重读这个大文件,并记录时间;

第二次读应该比第一次快很多。

free输出的第二行是从一个应用程序的角度看系统内存的使用情况。

对于FO[3][2],即-buffers/cache,表示一个应用程序认为系统被用掉多少内存;

对于FO[3][3],即+buffers/cache,表示一个应用程序认为系统还有多少内存;

因为被系统cache和buffer占用的内存可以被快速回收,所以通常FO[3][3]比FO[2][3]会大很多。

这里还用两个等式:

FO[3][2] = FO[2][2] - FO[2][5] - FO[2][6]

FO[3][3] = FO[2][3] + FO[2][5] + FO[2][6]

free命令的所有输出值都是从/proc/meminfo中读出的。

  1. 掌握free命令的功能:显示内存的使用状态。(下面均为centos7中查看效果)

http://www.linuxatemyram.com/提到使用free命令查看Linux系统使用内存时,used一项会把当前cache的大小也会加进去,这样会造成free这一栏显示的内存特别少:

$ free -m

          total        used        free      shared  buff/cache  available

Mem: 1504 1491 13 0 855 869

Swap: 2047 6 2041

可是实际上,cache根据应用程序的需要是可以回收利用的,因此free这一栏并不能真实地表现有多少“可以使用”的内存。实际系统可用内存应该以available数据为准。

linuxatemyram所提到的free命令也许是比较老的版本,我尝试了RHEL 7.2,Ubuntu 16.04和Arch Linux这3个Linux发行版,均没有出现used包含cache的情况:

$ free -m

          total        used        free      shared  buff/cache  available

Mem: 64325 47437 3150 1860 13737 14373

另外,从man free命令中也可以得到,目前计算used的值是要减掉free和buff/cache的:

used Used memory (calculated as total – free – buffers – cache)

可以使用-w命令行选项得到buff和cache各自使用的数量:

$ free -wm

          total        used        free      shared    buffers      cache  available

Mem: 64325 48287 2476 1859 1430 12131 13524

需要注意的是,free表示的是当前完全没有被程序使用的内存;而cache在有需要时,是可以被释放出来以供其它进程使用的(当然,并不是所有cache都可以释放,比如当前被用作ramfs的内存)。而available才真正表明系统目前可以提供给应用程序使用的内存。/proc/meminfo从3.14内核版本开始提供MemAvailable的值;在2.6.27~3.14版本之间,是free程序自己计算available的值;早于2.6.27版本,available的值则同free一样。

  1. 系统中进程的监控—ps(详见linux系统管理P363)
  1. 掌握进程的定义:进程是程序的一次动态执行。

  2. 掌握守护进程的定义:守护进程是在后台运行并提供系统服务的一些进程。

  3. 掌握父进程、子进程的定义:当一个进程创建另一个进程时,第1个进程被称为新进程的父进程,而新进程被称为子进程。

  4. 掌握ps命令的功能:用来显示当前进程的状态。

Ps –aux 显示所有的与用户相关的完整信息

系统中进程的监控pstree、kill

centos7默认没有pstree,需要yum -y install psmisc

  1. 掌握pstree命令的功能:以树状图显示程序。

  2. 掌握pstree命令的用法举例:

例如:列出PID为4729的进程的进程状态树的命令:pstree 4729

  1. 掌握kill命令的功能:把一个信号发送给一个或多个进程。默认发送终止信号。

  2. 灵活应用kill命令终止进程

例如:终止PID为3852的进程的命令:kill 3852

  1. 灵活应用kill -9命令杀死进程

例如:杀死PID为3906的进程的命令:kill -9 3906

  1. 掌握pgrep命令的功能:通过名称或其他属性查找进程

例如:查找名为firefox的进程的命令为:pgrep firefox

  1. 掌握pkill命令的功能:通过名称或其他属性发信号给进程

例如:杀死名为firefox的进程的命令为:pkill firefox

  1. 课后作业(用时30分钟)
  1. 实时动态监控系统状态

  2. 退出上一步的操作

  3. 开启top进程

  4. 使用ps命令查看top命令的pid并杀死

  5. 查看pid为2的进程的进程树

  6. 打开火狐浏览器

  7. 查找名为firefox的进程

  8. 杀死名为firefox的进程

试听课程热线:17621275268 QQ裙:830644110

老男孩IT教育: Python linux GO 网络安全、脱产、网络课程

实战教学,拒绝纸上谈兵。

上一篇:【转】用fo-dicom实现print scu的注意事项!!!!!!!!!


下一篇:[WITACM选拔赛]B题和C题【最短路】【前缀和+二分】