http://heikezhi.com/yuanyi/things-you-didnt-know-about-xargs
如果你曾经花了许多时间在Unix命令行上,那么或许你已经见过xargs了,如果你还没听过xargs,那就先让我来解释下,xargs是一个从标准输入或许参数并执行命令的程序。
常见使用
我常常见到将find和xargs组合使用以对find返回的文件列表执行某些操作。
更新:根据Twitter和hacker news上的反馈,find是个很强大的命令,它自己也有-exec和-delete这样的参数可以用来执行命令和删除文件,尽管如此,如果你对find的这些选项不太了解,或是想不起来-exec那古怪的语法,那么你还是可以使用更为简单的xargs,并且xargs在效率上也更胜一筹。
递归查找所有Python文件并统计文件行数
find . -name ‘*.py‘ | xargs wc -l
递归查找所有Emacs备份文件并删除:
find . -name ‘*~‘ | xargs rm
递归查找所有Python文件并搜索import语句:
find . -name ‘*.py‘ | xargs grep ‘import‘
处理文件/目录名中的空格
上面的例子有一个问题,如果文件或是目录名含有空格,则可能会有些问题,这是因为xargs默认会按照空白自负来划分输入。一个简单的解决办法就是告诉find使用NUL(\0)来分割结果(通过向find提供-print0选项),并且告诉xargs也使用Nul来分隔输入(-0)。
删除备份文件,即使含有空格:
find . -name ‘*~‘ -print0 | xargs -0 rm
参数位置
上面的例子中xargs从标准输入读取所有非空的元素并将他们连接起来提供给给定的命令进行执行,这在很多情况下会非常有用,尽管如此,有时你可能想要在命令中间插入一个参数,此时-J标记就排上用场了,xargs会为-J参数后面的字符串加上输入然后在执行。
将所有备份文件复制到backups目录下:
find . -name ‘*~‘ -print 0 | xargs -0 -J % cp % ~/backups
最大命令长度
有时通过管道传递给xargs的输入可能会造成要执行的命令超出最大命令行长度限制,你可以通过下面的命令得到命令行的最大长度:
getconf ARG_MAX
为了避免越限,xargs对于结果命令有它自己的最大长度限制,如果提供的参数有可能会造成调用的命令超出长度限制,则xargs会将输入分割成多个部分,并多次调用目标命令,默认的长度限制是4096,这可能要远远小于大多数现在系统的ARG_MAX设置,你可以通过向xargs提供-s标识来覆盖这个默认设置,当你对一个很大的源代码仓库进行操作时,这会显得尤其有用。
指定参数数量
如果你要执行的命令只接受1个或是2个参数,比如使用diff命令来对2个文件进行比较,那么xargs的-n选项就会非常有用,它可以指定一次向目标命令提供几个参数,如果参数数量多于你制定的数量,则命令将会被重复调用,直到所有输入都已经得到执行。注意,最后一次调用的参数有可能会少于指定的参数数量,下面让我们来看一个简单的例子:
$ echo {0..9} | xargs -n 2
0 12 34 56 78 9
同样的,你也可以使用-L参数制定每次只对某几行的输入进行操作,比如-L 1将每次从输入中取一行作为参数传递给待执行的命令,当然,你可以将1改为任意行,但1是最常用的,下面这条命令将演示如何得到每个git commit的代码变化:
git log --format="%H %P" | xargs -L 1 git diff
并行执行命令
你或许会使用xargs调用某些需要密集计算的命令,如果xargs可以利用你电脑上的多核计算能力,那该有多美妙?没错,-P参数就是干这个的,通过这个参数xargs可以一次并行的调用多个命令,举个例子,你可以通过它来并行的运行多个ffmpeg编码器,不过,还是让我们来个更简单一点的例子吧:
并行休眠
$ time echo {1..5} | xargs -n 1 -P 5 sleep
real 0m5.013suser 0m0.003ssys 0m0.014s
线性休眠
$ time echo {1..5} | xargs -n 1 sleep
real 0m15.022suser 0m0.004ssys 0m0.015s
如果你对使用xargs进行并行计算感兴趣,那么你或许应该看看GNU parallel,相比较而言,xargs的优势就是大多数系统默认都支持它,并且在BSD和OS X上也可以很容易的安装,但是parallel则有许多非常赞的特性。
如果你发现这篇帖子有用,别忘了在Twitter Follow下我哦。