PowerShell笔记 - 13.正则表达式

本系列是一个重新学习PowerShell的笔记,内容引用自PowerShell中文博客

定义模式

如果你需要更加精确的模式识别需要使用正则表达式,正则表达式提供了更加丰富的通配符。正因为如此,它可以更加详细的描述模式,正则表达式也因此稍显复杂。 使用下面的表格中列出的正则表达式元素,你可以非常精准的描述模式。

这些正则表达式元素可以归为三大类。

  • 字符:字符可以代表一个单独的字符,或者一个字符集合构成的字符串。
  • 限定符:允许你在模式中决定字符或者字符串出现的频率。
  • 定位符:允许你决定模式是否是一个独立的单词,或者出现的位置必须在句子的开头还是结尾。

正则表达式代表的模式一般由四种不同类型的字符构成。

  • 文字字符:像”abc”确切地匹配”abc“字符串
  • 转义字符:一些特殊的字符例如反斜杠,中括号,小括号在正则表达式中居于特殊的意义,所以如果要专门识别这些特殊字符需要转义字符反斜杠。就像”[abc]”可以识别”[abc]”。
  • 预定义字符:这类字符类似占位符可以识别某一类字符。例如”\d”可以识别0-9的数字。
  • 自定义通配符:包含在中括号中的通配符。例如”[a-d]”识别a,b,c,d之间的任意字符,如果要排除这些字符,可以使用”[^a-d]”。

字符

元素 描述
. 匹配除了换行符意外的任意字符
[^abc] 匹配除了包含在中括号的任意字符
[^a-z] 匹配除了包含在中括号指定区间字符的任意字符
[abc] 匹配括号中指定的任意一个字符
[a-z] 匹配括号中指定的任意区间中的任意一个字符
\a 响铃字符(ASCII 7)
\c or \C 匹配ASCII 中的控制字符,例如Ctrl+C
\d 匹配数字字符,等同于[0-9]
\D 匹配数字以外的字符
\e Esc (ASCII 9)
\f 换页符(ASCII 15)
\n 换行符
\r 回车符
\s 白空格(空格,制表符,新行)
\S 匹配白空格(空格,制表符,新行)意外的字符
\t 制表符
\uFFFF 匹配Unicode字符的十六进制代码FFFF。例如,欧元符号的代码20AC
\v 匹配纵向制表符(ASCII 11)
\w 匹配字符,数字和下划线
\W 匹配字符,数字和下划线意外的字符
\xnn 匹配特殊字符,nn代表十六进制的ASCII 码
.* 匹配任意数量的字符(包括0个字符)

限定符

元素 描述
* 匹配一个元素0次或者多次(最大限度地匹配)
.* 匹配任意个数的任意字符(包括0个字符)
? 匹配上一个元素0次或者1次(最大限度地匹配)
?? 匹配上一个元素0次或者1次(最小限度地匹配)
{n,} 匹配上一个元素至少n次
{n,m} 匹配上一个元素n至m次
{n} 匹配上一个元素n次
+ 匹配上一个元素一次或者多次

定位符

元素 描述
$ 在字符串的结尾匹配
\A 在字符串的开始匹配(包含多行文本)
\b 在单词的边界匹配
\B 不在单词的边界匹配
\Z 在字符串的结尾匹配(包含多行文本)
^ 在字符串的开始匹配

简单案例

识别IP

类似IP地址的模式通过正则表达式来描述比简单的通配符字符会更加精确。通常会使用字符和量词结合,来指定某个具体的字符应当出现,以及出现的频率:

PS C:\PowerShell> $parttern = "\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b"                                                  PS C:\PowerShell> "192.168.10.3" -match $parttern                                                                       True
PS C:\PowerShell> "a.168.10.3" -match $parttern                                                                         False
PS C:\PowerShell> "1000.168.10.3" -match $parttern                                                                      False

这里模式被描述成4个类似的数字,每个数字以圆句句号分割,每个数字的位数介于1-3。另外在开始和结尾可以包含空格。当这些数字处于0到255之间时,IP的验证还是挺完美的。
但是当某个数字超过255时,则显得无能为力。

PS C:\PowerShell> "255.489.921.321" -match $parttern                                                                    True

验证Email格式

如果你想验证用户提供的E-Mail地址是不是一个合法电子邮件格式,可以使用下面的正则表达式:

PS C:\PowerShell> $parttern = "\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b"                                              PS C:\PowerShell> "mosser@pstips.net" -match $parttern                                                                  True
PS C:\PowerShell> ".@ ." -match $parttern                                                                               False

无论什么时候,希望一个表达式以一个单独的“单词”在文本中出现,可以使用分隔符:单词边界(定位符”\b”),这样正则表达式就会知道你感兴趣的是字符串中除去那些白空格(像空格,制表符,换行符)以外的字符。

紧随其后的正则表达式指定的是那些字符可以被允许出现在电子邮件地址中。被允许的字符放在方括号中,由字符区间(例如:A-Z0-9)和单个字符(例如:”._%+-“)构成。“+”放在方括号后面是一个限定符,意味着前面的字符至少出现一次。当然你可以规定出现更多的字符。
接下来的是“@”,@之后的字符可以和@前面的一样。在电子邮件地址后面必须出现一个圆句点。但是因为圆句点属于特殊字符,所以加了反斜杠转义\.,让它以普通字符的形式出现在正则表达式中。
在圆句点之后是域标识,它们完成由字母([A-Z])组成,限定符({2,4})紧随其后指定域标识符应当至少由2个字符,至多由4个字符组成。
但是上面的正则表达式仍旧有一些瑕疵:

PS C:\PowerShell> $parttern = "^[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}$"
PS C:\PowerShell> "请邮件联系: mosser@pstips.net 好不好?" -match $parttern                                            False
PS C:\PowerShell> "mosser@pstips.net" -match $partter                                                                   True

同时搜索不同的词语

有时搜索的词语比较含糊不清,因为这些词语可能有多种写法。你可以使用限定符“?”来标记这些词语作为可选字符。非常简单,把“?”放在可选字符后面即可。这样“?”前的字符就变成了可选字符,而不是非得出现。

"color" -match "colou?r"
True
"colour" -match "colou?r"
True

注意,此处的字符“?”并不代表任何字符,因为怕你可能会联想到简单模式匹配里面的“?”。正则表达式中的“?”,只是一个限定符,它代表的是指定字符或者子表达式出现的频率。具体到上面的例子,“u?”就确保了字符“u”在模式中不是必需的。常用的其它限定符,还有“*”(出现0次后者多次)和“+”(至少出现一次)。

如果你想标记更多的连续字符作为可选,可以把这些字符放置圆括号中建立子表达式。下面的子表达可以同时识别“Nov”和“November”:

"Nov" -match "\bNov(ember)?\b"
True
"November" -match "\bNov(ember)?\b"
True

如果你想使用多个可选的搜索词语,可以使用“或”操作符“|”:

"Bob and Ted" -match "Alice|Bob"
True

如果你想将搜索的词语和固定文本结合在一起,作为可选,仍然可以使用子表达式:

# 搜索 "and Bob":
"Peter and Bob" -match "and (Bob|Willy)"
True
# 没有搜索到 "and Bob":
"Bob and Peter" -match "and (Bob|Willy)"
False

大小写敏感

为了和PowerShell的习惯保持一致,操作符-match是大小写不敏感的,如果你想切换至大小写敏感的操作符可以使用“-cmatch

# -match 大小写不敏感:
"hello" -match "heLLO"
True
# -cmatch 大小写敏感:
"hello" -cmatch "heLLO"
False

在文本中搜索信息

正则表达式可以识别模式。它们也可以根据确定的模式从文本中过滤出数据,因此正则表达式是用来处理源文本的一款非常优秀的工具。

例如,你想从一封邮件中过滤出一个确切的电子邮件地址,就可以使用我们之前提到过正则表达式。然后就可以在变量\(matches找出返回的结果。在你使用`-match`操作符时,`\)matches变量会自动被创建,并存储过滤出的结果。$matches`是一个哈希表,你既可以输出一个完整的哈希表,也可以使用在中括号中的名称(键值)逐个访问其中的某个元素。

如果文本中有多个电子邮件,上面的方法还会有效吗?非常遗憾,它不会这样做。操作符-match只会匹配一次正则表达式。因此如果你想在源文本中搜索多个出现的模式,你必须切换至RegEx对象,值得一提的是RegEx对象不像-matchRegex对象默认是大小写敏感的,你要想大小写不敏感,可以参考前面的文章。

#-match 只能匹配一个邮箱
PS C:\PowerShell> $rawtext = "test@pstips.net sent an e-mail that was forwarded to admin@pstips.net."                   PS C:\PowerShell> $rawtext -match "\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b"                                          True
PS C:\PowerShell> $matches                                                                                              
Name                           Value
----                           -----
0                              test@pstips.net

# regex 对象可以匹配所有出现的电子邮箱地址,默认大小写敏感
#(?i) 不匹配大小写 (?-i) 匹配大小写
PS C:\PowerShell> $regex = [regex]"(?i)\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b"                                      PS C:\PowerShell> $regex.Matches($rawtext)                                                                              

Groups   : {0}
Success  : True
Name     : 0
Captures : {0}
Index    : 0
Length   : 15
Value    : test@pstips.net

Groups   : {0}
Success  : True
Name     : 0
Captures : {0}
Index    : 53
Length   : 16
Value    : admin@pstips.net



PS C:\PowerShell> $regex = [regex]"(?-i)\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b"                                     PS C:\PowerShell> $regex.Matches($rawtext)                                                                              PS C:\PowerShell> $regex = [regex]"(?i)\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b"                                      PS C:\PowerShell> $regex.Matches($rawtext)                                                                              

Groups   : {0}
Success  : True
Name     : 0
Captures : {0}
Index    : 0
Length   : 15
Value    : test@pstips.net

Groups   : {0}
Success  : True
Name     : 0
Captures : {0}
Index    : 53
Length   : 16
Value    : admin@pstips.net

# 指定输出结果
PS C:\PowerShell> $regex.Matches($rawtext) | Select-Object -Property Value                                              
Value
-----
test@pstips.net
admin@pstips.net


PS C:\PowerShell> $regex.Matches($rawtext) | ForEach-Object { "found: $($_.Value)" }                                    found: test@pstips.net
found: admin@pstips.net

一串原始的文本行通常有大量有用信息,你可以使用子表达式来收集数据,可以在之后单独使用。基本的规则是所有想通过模式来搜索的数据应当放在圆括号中,因为变量$matches会将这些子表达式以单独的序列返回。如果文本行首先包含了数据,然后是其它文本,两者之间以制表符分割,你可以如下描述这段模式:

"定义模式: 由Tab分割的两个字符串"
$pattern = "(.*)\t(.*)"
# 生成一个由Tab分割的字符串
$line = "12/01/2009`tDescription"
# 使用正则表达式匹配:
$line -match $pattern
"显示结果:"
$matches 
$matches[1]
$matches[2]

PS C:\PowerShell> .\test.ps1                                                                            定义模式: 由Tab分割的两个字符串
True
显示结果:

Name                           Value
----                           -----
2                              Description
1                              12/01/2009
0                              12/01/2009       Description                                                             
12/01/2009
Description

当使用子表达式时,$matches会包含所有搜索模式,数组的第一个元素命名为“0”,子表达式分别位于两个圆括号中,为了使他们更加便于读取理解,你可以分配给每个子表达式它们自己的名子(键),接下来通过它们去调用匹配的结果。给子表达式命名,可以在圆括号中输入type ?。

# 给子表达式命名:
$pattern = "(?<Date>.*)\t(?<Text>.*)"
# 生成包含Tab键的字符串
$line = "12/01/2009`tDescription"
# 使用正则表达式匹配:
$line -match $pattern

$matches

$matches.Date

$matches.Text

PS C:\PowerShell> .\test.ps1                                                                            True

Name                           Value
----                           -----
Date                           12/01/2009
Text                           Description
0                              12/01/2009       Description                                                             
12/01/2009
Description

每个子表达式检索的结果都需要存储空间,如果特定场合中不需要这些结果可以,可以丢弃它们,因为这样可以提高正则表达式匹配的速度。要丢弃结果,可以在子表达式中的第一个语句上加上“?:”

# 第二个子表达式不返回结果:
$pattern = "(?<Date>.*)\t(?:.*)"
# 生成包含制表符的字符串:
$line = "12/01/2009`tDescription"
# 使用正则表达式匹配:
$line -match $pattern
# 第二个子表达式没有多余的结果返回
$matches

PS C:\PowerShell> .\test.ps1                                                                            True

Name                           Value
----                           -----
Date                           12/01/2009
0                              12/01/2009       Description                                                             

深入使用子表达式

借住子表达式的帮助,你可以创建出更加惊人和灵活的正则表达式。例如,怎样定义一个网站中HTML标签的模式呢?一个标签通常包含同样的结构:<tagname [parameter]>…</tagname>,这就意味着可以快速定义出一个非常严格的HTML标签模式:

PS C:\PowerShell> "<body background=1>www.pstips.net</body>" -match "<body\b[^>]*>(.*?)</body>"                         True
PS C:\PowerShell> $Matches                                                                                              
Name                           Value
----                           -----
1                              www.pstips.net
0                              <body background=1>www.pstips.net</body>

模式以固定的文本<body开始,额外的字符以单词为界。接下来跟着右括号>,之后则是中的内容,这些内容可以由任意数量的字符(.*?)组成。圆括号中是一个子表达式,会在$matches中返回检索得到的结果。结尾的部分为固定文本 <开始,另外一次以/body>终结。
如果一个正则表达式支持处理任意标签,那它必须能够自动地找出所有的标签,并且在前后两个位置都能使用。怎样完成它呢?像这样:

PS C:\PowerShell> "<body background=2>Contents</body>" -match "<([A-Z][A-Z0-9]*)[^>]*>(.*?)</\1>"                       True
PS C:\PowerShell> $Matches                                                                                              
Name                           Value
----                           -----
2                              Contents
1                              body
0                              <body background=2>Contents</body>

上面的正则表达式不在包含预定义的固定HTMl 标签,却能匹配所有的HTML标签。它是如何办到的呢?因为初始标签被定义成子表达式,该子表达式以字母开始,可以由任意字母或数字组成。
([A-Z][A-Z0-9]*)
在开始匹配到的标签必须在之后也能迭代匹配到,就是要有头也得有尾,善始善终。此处你会发现引入了一个新写法””,“\1”引用的是第一个子表达式。这样就保证了HTMl标签开始的和结尾的一致了。

PS C:\PowerShell> $regexTag = [regex]"(?i)<([A-Z][A-Z0-9]*)[^>]*>(.*?)</\1>"                                            PS C:\PowerShell> $result = $regexTag.Matches("<button>Press here</button>")                                            PS C:\PowerShell> $result[0].Groups[2].Value + " is in tag " + $result[0].Groups[1].Value                               Press here is in tag button
PS C:\PowerShell> $result                                                                                               

Groups   : {0, 1, 2}
Success  : True
Name     : 0
Captures : {0}
Index    : 0
Length   : 27
Value    : <button>Press here</button>



PS C:\PowerShell> $result.Count                                                                                         1
PS C:\PowerShell> $result[0].Groups | ForEach-Object {$_.Value}                                                         <button>Press here</button>
button
Press here

贪婪与非贪婪匹配

根据正则表达式的规则,读者可能会怀疑在上面匹配HTML标签时,使用的是.*?而不是简单的.*。毕竟.*已经可以匹配足够的字符了。.*.*?之间的不同并不容易识别。下面通过一个例子来澄清。

假设你要再一个长文件中匹配英文月份,但是月份并不是以同样的方式出现的。有时使用短格式,有时使用长格式。正如接下来看见的一样,正则表达式完成可以做到。因为正则表达式支持子表达式以可选的形式出现。

"Feb" -match "Feb(ruary)?"
#True
$matches[0]
#Feb
"February" -match "Feb(ruary)?"
#True
$matches[0]

PS C:\PowerShell> .\test.ps1
True
Feb
True
February

上面两种情况正则表达式都能识别月份,但是返回的结果却不相同,一个是Feb,一个是February。默认,正则表达式属于“贪婪”模式。在搜索到Feb后会继续贪婪地搜索更多符合模式的的字符。如果可以整个文本会返回。
然后,如果你主要关心的是规范的月份名称,你可能更喜欢获取缩写的月份名称。这也正是??限定符做的,它会将正则表达式转换成“非贪婪”模式,一旦他识别到一个模式,就会立即返回,不再会检查可选的子表达式是否匹配。

"Feb" -match "Feb(ruary)??"
#True
$matches[0]
#Feb
"February" -match "Feb(ruary)??"
#True
$matches[0]

PS C:\PowerShell> .\test.ps1                                                                            True
Feb
True
Feb

到底限定符??和之前的例子中的限定符*?有什么联系呢?事实上*?不是一个独立量词。它会将“贪婪”模式转换成“非贪婪”模式。这就意味着,你可以使用强制将限定符*转换成非贪婪模式,尽可能返回短结果。这也正是之前在匹配HTML标签时所做的。接下来你会看到假如没有“非贪婪”模式,正则表达式会尽可能检索更多的内容,也自然会出错。

PS C:\PowerShell> $regexTag = [regex]"(?i)<([A-Z][A-Z0-9]*)[^>]*>(.*)"                                                  PS C:\PowerShell> $result = $regexTag.Matches("<button>Press here")                                                     PS C:\PowerShell> $result[0].Groups | ForEach-Object { $_.Value }                                                                                                                                                                               <button>Press here
button
Press here

PS C:\PowerShell> $regexTag = [regex]"(?i)<([A-Z][A-Z0-9]*)[^>]*>(.*?)"
PS C:\PowerShell> $result = $regexTag.Matches("<button>Press here")                                                     PS C:\PowerShell> $result[0].Groups | ForEach-Object { $_.Value }                                                                                                                                                                               <button>
button

已经有专门的书籍来讲解正则表达式,所以深入讲解正则表达式超出了文本的主题。但是在这里还会举一个例子演示怎样通过正则表达式轻松的搜索字符串片段。下面的的脚本会匹配位于两个特定单词中的字串,并且字符的长度介于1到6之间。

PS C:\PowerShell> "Find word segments from start to end" -match "\bstart\W+(?:\w+\W+){1,6}?end\b"                       True
PS C:\PowerShell> $Matches                                                                                              
Name                           Value
----                           -----
0                              start to end

替换字符串

之前介绍过-replace操作符,你可以能已经知道了怎样替换字符串中的字串。让我们来回顾一下:

PS C:\PowerShell> "Hello, PowerShell" -replace "PowerShell", "www.pstips.net"                                           Hello, www.pstips.net

但是这种简单的替换不可能永远都是高效的,因此可以尝试使用正则表达式来完成替换工作。
下面有一个好玩的例子,用来演示它怎样实用。
也许你会碰到将多个类似的词语替换成同一个词语这样的需求。如果没有正则表达式,需要重复使用replace操作符多次。而每一次replace都会伴随一次遍历,效率明显很低。取而代之,如果使用正则表达式,则非常方便。

PS C:\PowerShell> "Mr. Miller and Mrs. Meyer" -replace "(Mr.|Mrs.)", "Our client"                                       Our client Miller and Our client. Meyer

你可以在括号中输入任意的词语,多个词语之间用“|”隔开,这样所有的词语都会被指定的字符串替换掉。

在文本行的开始插入字符

“替换串”可以由多行文本中的多个实例组成。例如,在你平时回复一封邮件时,你可能在新邮件中会通过在行首添加 “>” 符号来引用原邮件的中的内容。正则表达式就可以做这样的标记。
然而,要完成它,你可能得稍微了解一点“多行”模式。通常,该模式是关闭的,此时限定符”^”代表文本的开始,”\(”代表文本的结束。要让这两个限定符可以代表文本行的开始和文本行的结束,必须使用”(?m)”来开启“多行”模式。只有这样,–replace 才会在每个单独的文本行之间替换模式。在“多行”模式开启后,限定符”^” 和 “\A”,还有”\)” and “\Z”会顿时拥有不同的表现。”\A”仍然会标志文本的开始,而”^”则会标志文本行的开始。”\Z”仍然会标志文本的结尾,而”$”则会标志文本行结尾。

$text = @"
这是一段文本,
我想在回复的邮件中引用它,
所以我在每行的开始追加了">" 符号。
"@
 
这是一段文本,
我想在回复的邮件中引用它,
所以我在每行的开始追加了">" 符号。
 
# 通常, -replace 没有工作在多行模式.
# 鉴于此,只有第一行的开始被替换了:
$text -replace "^", "> "
 
> 这是一段文本,
我想在回复的邮件中引用它,
所以我在每行的开始追加了">" 符号。
 
# 如果你开启了多行模式, 替换串则会多行文本中起作用:
$text -replace "(?m)^", "> "
 
> 这是一段文本,
> 我想在回复的邮件中引用它,
> 所以我在每行的开始追加了">" 符号。
 
# 你也可以使用RegEx对象来完成多行替换,
# 不过得显式指定多行模式
[regex]::Replace($text, "^", "> ", `
[Text.RegularExpressions.RegExOptions]::Multiline)
 
> 这是一段文本,
> 我想在回复的邮件中引用它,
> 所以我在每行的开始追加了">" 符号。
 
# 在多行模式中 \A 仍旧代表文本的开始,^代表行的开始
# 这就是为什么下面的方法只能替换第一行的开始
[regex]::Replace($text, "\A", "> ", `
[Text.RegularExpressions.RegExOptions]::Multiline)
 
> 这是一段文本,
我想在回复的邮件中引用它,
所以我在每行的开始追加了">" 符号。

删除多余的空格、搜索和移除重复的单词

使用正则表达式可以完成一些日常任务,比如一处一个字符串中多余的白空格。模式需要描述一个空格(字符:“\s”)至少出现两次(限定符:“{2,}”)。然后以一个正常的单空格字符替换。

PS C:\PowerShell> "太多    太多的   空格 怎么才能减少 " -replace "\s{2,}" ," "                                          太多 太多的 空格 怎么才能减少

怎样才能移除文本中多余的单词。这里,仍旧可以再次使用空格。模式可以这样定义:
\b(\w+)(\s+\1){1,}\b
模式会搜索一个单词(以“\b”定位),它由一个单词组成(字符“\w” 和限定符“+”),白空格紧随以后(字符“\s”和限定符“+”)。该模式中,白空格字符和将要被替换的单词必须至少出现一次(至少一次或者更多次,使用限定符“{1,}”)。整个模式会被第一次出现的反向引用给替换掉,也就是位于第一个的单词。

PS C:\PowerShell> "太多 太多 的话 我还没有说, 太多 太多 太多 的理由值得你留下" -replace "\b(\w+)(\s+\1){1,}\b", '$1'   太多 的话 我还没有说, 太多 的理由值得你留下
上一篇:织梦Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集(三)


下一篇:python匹配字符串中,某个词的位置