linux-grep

2023-01-09 10:33:21

1. grep
    1.1 grep的与或非举例
    1.2 其他常用例子
    1.3 更多选项
2 正则表达式
    2.1 概念
    2.2 大部分正则表达式的形式都有如下的结构：
    2.3 精确的语法可能因不同的工具或程序而异。
3. 实例
    3.1 查找html文件里所有高度参数
    3.2 删除表格内高度参数
    3.3 写入文件

1. grep

grep – 在文件中搜索模式，打印模式匹配成功的行，可以搜索一个或多个文件。
这里的模式匹配与文本编辑器里的字段搜索，通配符模糊查找不同之处是使用正则表达式，是一套完整的模式表示规则。

1.1 grep的与或非举例

and
$ grep pci hwinfo.txt |grep devices

or -E
$ grep 'pci\|devices' hwinfo.txt
$ grep -E 'pci|devices' hwinfo.txt

非 -v
$ grep -v pci hwinfo.txt

1.2 其他常用例子

单词精确查找 -w
$ grep -w pci hwinfo.txt
仅查找独立的pci单词。即不包括ppci，pci1等前后有其他字母或数字，包含pci的词。

忽略大小写 -i
$ grep -i pci hwinfo.txt

统计行数 -c
$ grep -i pci hwinfo.txt | grep -vc pci-0000

输出包含行号 -n
$ grep -i pci hwinfo.txt | grep -vn pci-0000

打印包含字段的文件名 -l
$ grep -l pci hwinfo.txt s.json
hwinfo.txt

打印不包含字段的文件名 -L
$ grep -L pci hwinfo.txt s.json
s.json

1.3 更多选项

	匹配选择:	Pattern selection and interpretation:	模式选择和解释：
-E,	--extended-regexp	PATTERNS are extended regular expressions	使用扩展正则表达式匹配。
-F,	--fixed-strings	PATTERNS are strings	使用固定字符串匹配。
-G,	--basic-regexp	PATTERNS are basic regular expressions	PATTERNS是基本的正则表达式 (默认)
-P,	--perl-regexp	PATTERNS are Perl regular expressions	PATTERNS是Perl正则表达式
	匹配控制:
-e,	--regexp=PATTERNS	use PATTERNS for matching	使用PATTERNS进行匹配
-f,	--file=FILE	take PATTERNS from FILE	从文件中获取PATTERNS
-i,	--ignore-case	ignore case distinctions	忽略案例区别. 忽略大小写
-w,	--word-regexp	match only whole words	只匹配整个单词. 如果还指定了-x，则此选项无效。
-x,	--line-regexp	match only whole lines	只匹配整条线
-v,	--invert-match	select non-matching lines	选择不匹配的行
	一般输出控制:	Output control:
-c,	--count	print only a count of selected lines per FILE	仅打印每个FILE所选行的计数. 使用-v,计算不匹配的行。
	--color[=WHEN],	use markers to highlight the matching strings;	使用标记突出显示匹配的字符串;
	--colour[=WHEN]	WHEN is 'always', 'never', or 'auto'	什么时候是“永远”，“从不”或“自动”
-L,	--files-without-match	print only names of FILEs with no selected lines	仅打印没有选定行的FILE名称
-l,	--files-with-matches	print only names of FILEs with selected lines	仅打印具有选定行的FILE名称
-m,	--max-count=NUM	stop after NUM selected lines	NUM选择行后停止
-o,	--only-matching	show only nonempty parts of lines that match	仅显示匹配的非线性部分
-q,	--quiet, --silent	suppress all normal output	抑制所有正常输出
-s,	--no-messages	suppress error messages	抑制错误消息
	输出行前缀控制:
-b,	--byte-offset	print the byte offset with output lines	输出打印字节偏移量
-H,	--with-filename	print file name with output lines	打印每个匹配的文件名。当有多个要搜索的文件时，这是默认设置。
-h,	--no-filename	suppress the file name prefix on output	禁止输出上的文件名前缀。当只有一个文件(或仅标准输入)时，这是默认设置。
	--label=LABEL	use LABEL as the standard input file name prefix	使用LABEL作为标准输入文件名前缀
-n,	--line-number	print line number with output lines	输出打印行号
-T,	--initial-tab	make tabs line up (if needed)	制作标签队列(如果需要). 初始选项卡
-Z,	--null	print 0 byte after FILE name	在FILE名称后打印0字节。输出零字节(ASCII NUL字符).
	上下文行控制:	Context control:
-A,	--after-context=NUM	print NUM lines of trailing context	打印NUM行尾随上下文
-B,	--before-context=NUM	print NUM lines of leading context	打印NUM行前导上下文
-C,	--context=NUM	print NUM lines of output context	打印NUM行输出上下文
-NUM		same as --context=NUM	与--context = NUM相同
	文件和目录选择:
-a,	--text	equivalent to --binary-files=text	相当于--binary-files = text; 像处理文本一样处理二进制文件;
	--binary-files=TYPE	assume that binary files are TYPE;	假设二进制文件是TYPE; TYPE is 'binary', 'text', or 'without-match'
-D,	--devices=ACTION	how to handle devices, FIFOs and sockets; ACTION is 'read' or 'skip'	如何处理设备，FIFO和插座; ACTION is 'read' or 'skip'
-d,	--directories=ACTION	how to handle directories; ACTION is 'read', 'recurse', or 'skip'	如何处理目录; ACTION is 'read', 'recurse'递归, or 'skip'
	--exclude=GLOB	skip files and directories matching GLOB	跳过与GLOB匹配的文件和目录
	--exclude-from=FILE	skip files matching any file pattern from FILE	跳过与FILE中的任何文件模式匹配的文件
	--exclude-dir=GLOB	skip directories that match GLOB	跳过与GLOB匹配的目录
	--include=GLOB	search only files that match GLOB (a file pattern)	仅搜索与GLOB匹配的文件（文件模式）
-I		equivalent to --binary-files=without-match	相当于--binary-files =不匹配; 处理二进制文件，就像它不包含匹配数据一样
-r,	--recursive	like --directories=recurse	只有符号链接在命令行上时，才能递归地读取每个目录下的所有文件。如果没有给出文件操作数，grep将搜索工作目录。这相当于-d recurse选项
-R,	--dereference-recursive	likewise, but follow all symlinks	递归地读取每个目录下的所有文件。跟随所有符号链接，与-r不同。
	其他选择:	Miscellaneous:
-V,	--version	display version information and exit	显示版本信息并退出
	--help	display this help text and exit	显示此帮助文本并退出
	--line-buffered	flush output on every line	在输出上使用行缓冲。这可能会导致性能下降。
-U,	--binary	do not strip CR characters at EOL (MSDOS/Windows)	不要在EOL(MSDOS/Windows)中删除CR字符。将文件视为二进制文件。
-z,	--null-data	a data line ends in 0 byte, not newline	将输入和输出数据视为行序列，每个行以零字节(ASCII NUL字符)而不是换行符

2 正则表达式

https://zh.wikipedia.org/wiki/正则表达式
 https://en.wikipedia.org/wiki/Regular_expression

2.1 概念

正则表达式（英语：Regular Expression，在代码中常简写为regex、regexp或RE）(有时称为rational expression理性表达)，又称正则表示式、正则表示法、规则表达式、常规表示法，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。

自20世纪80年代以来，用于编写正则表达式的不同语法已经存在，一个是POSIX标准，另一个是广泛使用的Perl语法。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件（例如sed,awk和grep）普及开的。正则表达式用于搜索引擎，搜索和替换文字处理器和文本编辑器的对话框，文本处理实用程序（如sed和AWK）以及词法分析。许多编程语言都提供内置或通过库的正则表达式功能。

正则表达式（通常称为模式）是用于指定特定目的所需的一组字符串的表达式。指定有限字符串集的简单方法是列出其元素或成员。但是，通常有更简洁的方法来指定所需的字符串集。例如，包含三个字符串“Handel”，“Händel”和“Haendel”的集合可以由模式 H(ä|ae?)ndel 指定。

2.2 大部分正则表达式的形式都有如下的结构：

Boolean "or" 布尔“或”

竖线|代表选择（即或集），具有最低优先级。例如gray|grey可以匹配grey或gray。

Quantification 数量限定
某个字符后的数量限定符用来限定前面这个字符允许出现的个数。最常见的数量限定符包括+、?和*（不加数量限定则代表出现一次且仅出现一次）：

问号?代表前面的字符最多只可以出现一次。（0次或1次）。例如，colou?r可以匹配color或者colour;
加号+代表前面的字符必须至少出现一次。（1次或多次）。例如，goo+gle可以匹配google、gooogle、goooogle等;
星号*代表前面的字符可以不出现，也可以出现一次或者多次。（0次、1次或多次）。例如，0*42可以匹配42、042、0042、00042等。

匹配

圆括号()可以用来定义操作符的范围和优先度。例如，gr(a|e)y等价于gray|grey，(grand)?father匹配father和grandfather。

上述这些构造子都可以*组合，因此H(ae?|ä)ndel和H(a|ae|ä)ndel是相同的。

2.3 精确的语法可能因不同的工具或程序而异。

正则表达式有多种不同的风格。
更多语法及具体规则在可参阅：https://en.wikipedia.org/wiki/Regular_expression

https://en.wikipedia.org/wiki/Comparison_of_regular_expression_engines
正则表达式引擎的比较

正则表达风味比较 - 最流行的正则表达风味的详细比较
http://www.regular-expressions.info/refflavors.html

Regexp语法摘要
http://www.greenend.org.uk/rjk/2002/06/regexp.html

在线正则表达式测试 - 支持Java，JavaScript，.Net，PHP，Python和Ruby
http://www.regexplanet.com/

实现正则表达式 - RE2的作者Russ Cox的系列文章
https://swtch.com/~rsc/regexp/

正则表达式引擎
http://www.softec.lu/site/RegularExpressions/RegularExpressionEngines

3. 实战

3.1 查找html文件里所有高度参数

$ grep height=\"..\" 1.html
<td align="left" height="20">RS</td>
<td align="left" height="23">ORS</td>

3.2 删除表格内高度参数

$ sed 's/height=\"..\">/>/g' 1.html |grep align
<td align="left" >OFS</td>
<td align="left" >RS</td>

3.3 写入文件

$ sed -i 's/height=\"..\">/>/g' 1.html

码农公寓