转自:http://blog.csdn.net/yuzhihui_no1/article/details/51767516
最近在查一个Bug,应用程序kill之后重启,总是会出现adc的设备open失败,知道应该是占用没有释放,但是不知道怎么查找到底谁没有释放,于是查到lsof这个命令,使用lsof | grep iio追溯到是udhpcd占用。
1.lsof简介
lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接 和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因 为应用程序打开文件的描述符列表提供了大量关于这个应用程序本身的信息,因此通过lsof工具能够查看这个列表对系统监测以及排错将是很有帮助的。
2.lsof使用
lsof输出信息含义
在终端下输入lsof即可显示系统打开的文件,因为 lsof 需要访问核心内存和各种文件,所以必须以 root 用户的身份运行它才能够充分地发挥其功能。
#lsof
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
init root cwd DIR , /
init root rtd DIR , /
init root txt REG , /sbin/init
init root mem REG , /lib/libdl-2.6.so
init root mem REG , /lib/libc-2.6.so
init root mem REG , /lib/libselinux.so.
init root mem REG , /lib/libsepol.so.
init root mem REG , /lib/ld-2.6.so
init root 10u FIFO , /dev/initctl
每行显示一个打开的文件,若不指定条件默认将显示所有进程打开的所有文件。lsof输出各列信息的意义如下:
- COMMAND:进程的名称
- PID:进程标识符
- USER:进程所有者
- FD:文件描述符,应用程序通过文件描述符识别该文件。如cwd、txt等
- TYPE:文件类型,如DIR、REG等
- DEVICE:指定磁盘的名称
- SIZE:文件的大小
- NODE:索引节点(文件在磁盘上的标识)
- NAME:打开文件的确切名称
其中FD 列中的文件描述符cwd 值表示应用程序的当前工作目录,这是该应用程序启动的目录,除非它本身对这个目录进行更改。txt 类型的文件是程序代码,如应用程序二进制文件本身或共享库,如上列表中显示的 /sbin/init 程序。其次数值表示应用程序的文件描述符,这是打开该文件时返回的一个整数。如上的最后一行文件/dev/initctl,其文件描述符为 10。u 表示该文件被打开并处于读取/写入模式,而不是只读(R) 或只写 (w) 模式。同时还有大写 的W 表示该应用程序具有对整个文件的写锁。该文件描述符用于确保每次只能打开一个应用程序实例。初始打开每个应用程序时,都具有三个文件描述符,0、1、2, 分别表示标准输入、输出和错误流。所以大多数应用程序所打开的文件的 FD 都是从 3 开始。
与 FD 列相比,Type 列则比较直观。文件和目录分别称为 REG 和 DIR(在 Solaris 中,称为 VREG 和 VDIR)。而CHR 和 BLK,分别表示字符和块设备; 或者 UNIX、FIFO 和 IPv4,分别表示 UNIX 域套接字、先进先出 (FIFO) 队列和网际协议 (IP) 套接字。
3.lsof常用参数
lsof 常见的用法是查找应用程序打开的文件的名称和数目。可用于查找出某个特定应用程序将日志数据记录到何处,或者正在跟踪某个问题。
例如,linux限制了进程能够打开文件的数目。通常这个数值很大,所以不会产生问题,并且在需要时,应用程序可以请求更大的值(直到某
个上限)。如果你怀疑应用程序耗尽了文件描述符,那么可以使用 lsof 统计打开的文件数目,以进行验证。lsof语法格式是:
lsof [options] filename
常用的参数列表:
- lsof filename 显示打开指定文件的所有进程
- lsof -a 表示两个参数都必须满足时才显示结果
- lsof -c string 显示COMMAND列中包含指定字符的进程所有打开的文件
- lsof -u username 显示所属user进程打开的文件
- lsof -g gid 显示归属gid的进程情况
- lsof +d /DIR/ 显示目录下被进程打开的文件
- lsof +D /DIR/ 同上,但是会搜索目录下的所有目录,时间相对较长
- lsof -d FD 显示指定文件描述符的进程
- lsof -n 不将IP转换为hostname,缺省是不加上-n参数
- lsof -i 用以显示符合条件的进程情况
- lsof -i[46] [protocol][@hostname|hostaddr][:service|port]
- protocol --> TCP or UDP
- hostname --> Internet host name
- hostaddr --> IPv4地址
- service --> /etc/service中的 service name (可以不只一个)
- port --> 端口号 (可以不只一个)
46 --> IPv4 or IPv6
lsof +L/-L 打开或关闭文件的连结数计算,当+L没有指定时,所有的连结数都会显示(默认);若+L后指定数字,则只要连结数小于该数字的信息会显示;连结数会显示在NLINK列。
例如:+L1将显示没有unlinked的文件信息;+aL1,则显示指定文件系统所有unlinked的文件信息。-L 默认参数,其后不能跟数字,将不显示连结数信息lsof +L1
4.lsof使用实例
- 查看22端口现在运行的情况
# lsof -i :
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
sshd root 3u IPv6 TCP *:ssh (LISTEN)
- 查看所属root用户进程所打开的文件类型为txt的文件
# lsof -a -u root -d txt
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
init root txt REG , /sbin/init
mingetty root txt REG , /sbin/mingetty
mingetty root txt REG , /sbin/mingetty
mingetty root txt REG , /sbin/mingetty
mingetty root txt REG , /sbin/mingetty
mingetty root txt REG , /sbin/mingetty
mingetty root txt REG , /sbin/mingetty
kdm root txt REG , /usr/bin/kdm
X root txt REG , /usr/bin/Xorg
kdm root txt REG , /usr/bin/kdm
startkde root txt REG , /bin/bash
- 查找谁在使用文件系统
# lsof /GTES11/
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
bash root cwd DIR , /GTES11/
vim root cwd DIR , /GTES11/
在这个示例中,用户root正在其/GTES11目录中进行一些操作。一个 bash是实例正在运行,并且它当前的目录为/GTES11,另一个则显示的是vim正在编辑/GTES11下的文件。要成功地卸载/GTES11,应该在通知用户以确保情况正常之后,中止这些进程。 这个示例说明了应用程序的当前工作目录非常重要,因为它仍保持着文件资源,并且可以防止文件系统被卸载。这就是为什么大部分守护进程(后台进程)将它们的目录更改为根目录、或服务特定的目录(如 sendmail 示例中的 /var/spool/mqueue)的原因,以避免该守护进程阻止卸载不相关的文件系统。
- 搜索打开的网络连接
如果想搜索IP地址为10.645.64.23的远程连接主机的所有网络连接,可以执行如下命令,该命令可以打开系统中该远程知己所有打开的套接字。:
/usr/sbin/lsof –i@10.65.64.23
- 寻找本地断开的打开文件
用户经常遇到这种情况,当一个进程正在向一个文件写数据时,该文件的目录可能被移动。这就产生了一个非常大的问题。例如,用户可能发现正在向/data写数据,但是却看不到文件增大,LSOF这个工具可以找到到这样的错误
/usr/sbin/lsof –a +L1 /data
- 搜索被程序打开的所有文件及打开的文件相关联进程
如果想知道执行PID号为637的sendmail命令打开的所有文件、设备、库及套接字等,可以执行
lsof -p
- c 显示出以字母 c开头进程现在打开的文件
例:显示以init进程现在打开的文件
# lsof -c init
COMMAND PID USER FD TYPE DEVICE SIZE/OFF INODE NAME
init root cwd VDIR , /
init root txt VREG , /sbin/init
- login name(登入名称)或UID所正在打开文件。
# lsof -u loginname
- 恢复删除的文件
当Linux计算机受到入侵时,常见的情况是日志文件被删除,以掩盖攻击者的踪迹。管理错误也可能导致意外删除重要的文件,比如在清理旧日志时,意外地删除了数据库的活动事务日志。有时可以通过lsof来恢复这些文件。
当进程打开了某个文件时,只要该进程保持打开该文件,即使将其删除,它依然存在于磁盘中。这意味着,进程并不知道文件已经被删除,它仍然可以向打开该文件 时提供给它的文件描述符进行读取和写入。除了该进程之外,这个文件是不可见的,因为已经删除了其相应的目录索引节点。
在/proc 目录下,其中包含了反映内核和进程树的各种文件。/proc目录挂载的是在内存中所映射的一块区域,所以这些文件和目录并不存在于磁盘中,因此当我们对这 些文件进行读取和写入时,实际上是在从内存中获取相关信息。大多数与 lsof 相关的信息都存储于以进程的 PID 命名的目录中,即 /proc/1234 中包含的是 PID 为 1234 的进程的信息。每个进程目录中存在着各种文件,它们可以使得应用程序简单地了解进程的内存空间、文件描述符列表、指向磁盘上的文件的符号链接和其他系统信 息。lsof 程序使用该信息和其他关于内核内部状态的信息来产生其输出。所以lsof 可以显示进程的文件描述符和相关的文件名等信息。也就是我们通过访问进程的文件描述符可以找到该文件的相关信息。
当系统中的某个文件被意外地删除了,只要这个时候系统中还有进程正在访问该文件,那么我们就可以通过lsof从/proc目录下恢复该文件的内容。 假如由于误操作将/var/log/messages文件删除掉了,那么这时要将/var/log/messages文件恢复的方法如下:
首先使用lsof来查看当前是否有进程打开/var/logmessages文件,如下:
# lsof |grep /var/log/messages
syslogd root 2w REG , /var/log/messages (deleted)
从上面的信息可以看到 PID 1283(syslogd)打开文件的文件描述符为 2。同时还可以看到/var/log/messages已经标记被删除了。因此我们可以在 /proc/1283/fd/2 (fd下的每个以数字命名的文件表示进程对应的文件描述符)中查看相应的信息,如下:
# head -n /proc//fd/
Aug :: holmes86 syslogd 1.4.: restart.
Aug :: holmes86 kernel: klogd 1.4., log source = /proc/kmsg started.
Aug :: holmes86 kernel: Linux version 2.6.22.1- (root@everestbuilder.linux-ren.org ) (gcc version 4.2.) # SMP Wed Jul :: EDT
Aug :: holmes86 kernel: BIOS-provided physical RAM map:
Aug :: holmes86 kernel: BIOS-e820: - 000000000009f000 (usable)
Aug :: holmes86 kernel: BIOS-e820: 000000000009f000 - 00000000000a0000 (reserved)
Aug :: holmes86 kernel: BIOS-e820: - 000000001f7d3800 (usable)
Aug :: holmes86 kernel: BIOS-e820: 000000001f7d3800 - (reserved)
Aug :: holmes86 kernel: BIOS-e820: 00000000e0000000 - 00000000f0007000 (reserved)
Aug :: holmes86 kernel: BIOS-e820: 00000000f0008000 - 00000000f000c000 (reserved)
从上面的信息可以看出,查看 /proc/8663/fd/15 就可以得到所要恢复的数据。如果可以通过文件描述符查看相应的数据,那么就可以使用 I/O 重定向将其复制到文件中,如:
cat /proc/1283/fd/2 > /var/log/messages
对于许多应用程序,尤其是日志文件和数据库,这种恢复删除文件的方法非常有用。
- 在 Solaris 中查找删除的文件
# lsof -a -p -d ^txt
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
httpd nobody cwd VDIR , /
httpd nobody 0r VCHR , /devices/pseudo/mm@:null
httpd nobody 1w VCHR , /devices/pseudo/mm@:null
httpd nobody 2w VREG , / (/dev/dsk/c0t0d0s0)
httpd nobody 4r DOOR 0t0 /var/run/name_service_door
(door to nscd[]) (FA:->0x30002b156c0)
httpd nobody 15w VREG , / (/dev/dsk/c0t0d0s0)
httpd nobody 16u IPv4 0x300046d27c0 0t0 TCP *: (LISTEN)
httpd nobody 17w VREG , /var/apache/logs/access_log
httpd nobody 18w VREG , /var/run (swap)
使用 -a 和 -d 参数对输出进行筛选,以排除代码程序段,"^"是取反的意思。Name 列显示出,其中的两个文件(FD 2 和 15)使用磁盘名代替了文件名,并且它们的类型为 VREG(常规文件)。在 Solaris 中,删除的文件将显示文件所在的磁盘的名称。通过这个线索,就可以知道该 FD 指向一个删除的文件。实际上,查看 /proc/8663/fd/15 就可以得到所要查找的数据。
- linux lsof 修改句柄限制
在Linux下,我们使用ulimit -n 命令可以看到单个进程能够打开的最大文件句柄数量(socket连接也算在里面)。系统默认值1024。对于一般的应用来说(象Apache、系统进 程)1024完全足够使用。但是如何象squid、mysql、java等单进程处理大量请求的应用来说就有点捉襟见肘了。如果单个进程打开的文件句柄数 量超过了系统定义的值,就会提到“too many files open”的错误提示。在系统访问高峰时间以root用户执行如下脚本时,可能出现的结果如下:
# lsof -n|awk '{print $2}'|sort|uniq -c |sort -nr|more
其中第一列是打开的文件句柄数量,第二行是进程号。得到进程号后,我们可以通过ps命令得到进程的详细内容。
#ps -aef|grep 24204
mysql 24204 24162 99 16:15 ? 00:24:25 /usr/sbin/mysqld
查看得知是mysql进程打开最多文件句柄数量。但是他目前只打开了131个文件句柄数量,远远底于系统默认值1024。
但是如果系统并发特别大,尤其是squid服务器,很有可能会超过1024。这时候就必须要调整系统参数,以适应应用变化。Linux关于打开文件句柄数量,有硬性限制和软性限制。可以通过ulimit来设定这两个参数。方法如下,以root用户运行以下命令:
#ulimit -HSn
以上命令中,H指定了硬性大小,S指定了软性大小,n表示设定单个进程最大的打开文件句柄数量。个人觉得最好不要超过4096,毕竟打开的文件句柄数越多 响应时间肯定会越慢。设定句柄数量后,系统重启后,又会恢复默认值。如果想永久保存下来,可以修改 /etc/profile 把上面命令加到最后。
参考至:http://hi.baidu.com/angel_dbi/item/cd2b35eac71920f62b09a4f9
http://www.linuxdiyf.com/viewarticle.php?id=17343
http://www.cnblogs.com/rootq/articles/1401850.html
http://www.ibm.com/developerworks/cn/aix/library/au-lsof.html
本文原创,转载请注明出处、作者
如有错误,欢迎指正