Linux三剑客(grep、sed、awk)详解

                  Linux三剑客(grep、sed、awk)详解

 

       前言:本文主要介绍一下Linux中最重要的三个命令,他们在业界被誉为“三剑客”,它们分别是:awk,sed,grep。它们三个侧能的功能不同,grep擅长查找功能,sed擅长取行和替换,awk擅长取列。下面分别介绍三者的主要option和应用实例。

 

一、文本过滤工具grep(egrep)

grep [OPTIONS] PATTERN [FILE...]

 1.1、主要Option

  • --color=auto 对匹配到的文本着色显示
  • -v 显示不被pattern匹配到的行
  • -i 忽略字符大小写
  • -n 显示匹配的行号
  • -c 统计匹配的行数
  • -o 仅显示匹配到的字符串
  • -q 静默模式,不输出任何信息
  • -A # after, 后#行
  • -B # before, 前#行
  • -C # context, 前后各#行
  • -e 实现多个选项间的逻辑or关系

grep –e ‘cat ’ -e ‘dog’ file

  • -w 匹配整个单词
  • -E 使用ERE,相当于egrep
  • -F 相当于fgrep,不支持正则表达式

 1.2、grep应用举例

  • 查找 文件中包含root的行
grep -n root /etc/passwd

 

 二、流编辑器 --- 强大的替换工具sed

       sed是一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。然后读入下行,执行下一个循环。如果没有使诸如‘D’ 的特殊命令,那会在两个循环之间清空模式空间,但不会清空保留空间。这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。

sed [option]... 'script' inputfile

 2.1、主要Option

  • -n 不输出模式空间内容到屏幕,即不自动打印
  • -e 多点编辑
  • -f /PATH/SCRIPT_FILE: 从指定文件中读取编辑脚本
  • -r 支持使用扩展正则表达式
  • -i 直接编辑文件
  • -i.bak 备份文件并原处编辑

 

 2.2、Script 定界

  • 不给地址:对全文进行处理
  • 单地址:
    #: 指定的行,$:最后一行
    /pattern/:被此处模式所能够匹配到的每一行
  • 地址范围:
    #,#
    #,+#
    /pat1/,/pat2/
    `#,/pat1/
  • ~:步进
    1~2 奇数行
    2~2 偶数行

 

 2.3、编辑命令:

  • d 删除模式空间匹配的行,并立即启用下一轮循环
  • p 打印当前模式空间内容,追加到默认输出之后
  • a [\]text1 在指定行后面追加文本,支持使用\n实现多行追加
  • i [\]text 在行前面插入文本
  • c [\]text 替换行为单行或多行文本
  • w /path/somefile 保存模式匹配的行至指定文件
  • r /path/somefile 读取指定文件的文本至模式空间中匹配到的行后
  • = 为模式空间中的行打印行号
  • ! 模式空间中匹配行取反处理
  • s///:查找替换,支持使用其它分隔符,s@@@,s###

替换标记:
g 行内全局替换
p 显示替换成功的行
w /PATH/TO/SOMEFILE 将替换成功的行保存至文件中

 2.4、应用实例

  • 打印文件的第二行  
sed -n 2p /etc/passwd

 

三、 报告生成器awk --- 列提取神器

awk [options] 'program' file…

  • program:pattern{action statements;..}
  1. pattern部分决定动作语句何时触发及触发事件
    BEGIN,END
  2. action statements对数据进行处理,放在{}内指明
    print, printf

 3.1、主要Option

  • -F 指明输入时用到的字段分隔符
  • -v var=value 自定义变量

       awk执行时,由分隔符分隔的字段(域)标记1,1,2..n称为域标识,n称为域标识,0为所有域。
       省略action,则默认执行 print $0 的操作。


 3.2、变量

  • FS:输入字段分隔符;
  • OFS:输出字段分隔符;
  • RS:输入记录分隔符;
  • ORS:输出记录分隔符;
  • NF:字段数量;
  • NR:记录号;
  • NFR:各文件分别计数,记录号。
  • FILENAME:当前文件名;
  • ARGC:命令行的参数;
  • ARGV:数组,保存的是命令行所给定的各参数。

注意:以上都是内置变量,在引用时不需要前面加$,每新建一个变量,都需要加个-v,与变量名之间有无空格都可以,变量可以在引用之后再声明,但那一行的输出会输出空行。

 

 3.3、printf命令

       printf “FORMAT” , item1, item2, ... 不会自动换行,FORMAT中需要分别为后面每个item指定格式符。

  •  格式符    
     No.                                item                                                          表现形式
 1 %c 显示字符的ASCII码
2 %d, %i  显示十进制整数
3 %e, %E 显示科学计数法数值
4 %f  显示为浮点数
5 %g, %G 以科学计数法或浮点形式显示数值
6 %s  显示字符串
7 %u   无符号整数
8 %% 显示%自身
  • 操作符
     No.                              格式符                                                 item表现形式
1 #[.#] 第一个数字控制显示的宽度;第二个#表示小数点后精度,%3.1f
2 - 左对齐(默认右对齐) %-15s
3 + 显示数值的正负符号 %+d
  •   操作符
  1. 算术操作符:x+y, x-y, x*y, x/y, x^y, x%y

-x: 转换为负数
+x: 转换为数值

  1. 比较操作符:==, !=, >, >=, <, <=
  2. 模式匹配符:~:左边是否和右边匹配包含 !~:是否不匹配
  3. 逻辑操作符:与&&,或||,非!
  4. 函数调用:function_name(argu1, argu2, ...)
  5. 条件表达式(三目表达式):selector?if-true-expression:if-false-expression
  • PATTERN:根据pattern条件,过滤匹配的行,再做处理
  • 如果未指定:空模式,匹配每一行
  • /regular expression/:仅处理能够模式匹配到的行,需要用/ /括起来
  • relational expression: 关系表达式,结果为“真”才会被处理
  • line ranges:行范围 startline,endline:/pat1/,/pat2/不支持直接给出数字格式
  • BEGIN/END模式

 

  • awk控制语句
  1. { statements;… } 组合语句
  2. if(condition) {statements;…}
  3. if(condition) {statements;…} else {statements;…}
  4. while(conditon) {statments;…}
  5. do {statements;…} while(condition)
  6. for(expr1;expr2;expr3) {statements;…}
  7. break
  8. continue
  9. delete array[index]
  10. delete array
  11. exit

 3.4、应用实例

  • 打印文件第一列(文件分隔符为‘:’)
awk -F ':' '{print $1}' /etc/passwd

 

四、参考文献

  1. 本文摘自:https://blog.csdn.net/sj349781478/article/details/82930982
  2. awk学习http://blog.chinaunix.net/uid-23302288-id-3785105.html

  
 
    

 

 

 

 

 

 

 

上一篇:python基础-8.流程控制语句


下一篇:【ORACLE】ENABLE_DDL_LOGGING