正则表达式

2024-03-18 10:19:34

正则表达式（或re）是一种小型的、高度专业化的编程语言，（在python中）它内嵌在python中，并通过re模块来实现。那么在什么情况下会用到正则表达式呢，如下：
--可以为想要匹配的相应字符串集指定规则
--该字符串集可能包含英文语句、e-mail地址，命令或任何你想搞定的东西
--可以问诸如“这个字符串匹配该模式吗”，“在这个字符串中是否有部分匹配该模式呢”
--你也可以使用re以各种方式来修改或分割字符串

正则表达式模式被编译成一系列的字节码，然后由C编写的匹配引擎执行。且正则表达式语言相对小型和受限（功能有限），并非所有字符串处理都能用正则表达式完成

字符匹配
　----普通字符
　　大多数字母和字符一般都会和自身匹配
　　如正则表达式test 会和字符串'test'完全匹配
　----元字符
　　.　　^　　$　　*　　+　　?　　{ }　　[ ]　　\　　|　　( )

正则表达式----元字符
[ ]
----常用来指定一个字符集：[abc]；[a-z]
----元字符在字符集中不起作用：[akm$]
----补集匹配不在区间范围内的字符：[^5]

s = 'top tip tqp,twp,tep'
r = r't[oi]p' #定义一个正则表达式，匹配到tip或top
r = r't[^io]p' #定义一个正则表达式，匹配除了tip和top之外的字符
print(re.findall(r,s))

#打印结果一次为：['top', 'tip']
#              ['tqp', 'twp', 'tep']

^
----匹配行首。除非设置MULTILINE标识，它只是匹配字符串的开始。在MULTILINE模式里，它也可以直接匹配字符串中的每个换行

s= 'hello world,hello boy'
# r = r'hello' #匹配hello
r = r'^hello' #匹配到以hello开头的
print(re.findall(r,s))

#打印结果一次为：['hello', 'hello']
#              ['hello']

$
----匹配行尾，行尾被定义为要么是字符串尾，要么是一个换行字符后面的任何位置。

r= r't[abc$]' #定义一个正则，匹配以abc结尾的字符
print(re.findall(r,'ta')) #以r规则来匹配后面的字符串
print(re.findall(r,'tb'))
print(re.findall(r,'t$'))
print(re.findall(r,'at')) #以r规则来匹配后面的字符串,该字符串是以t结尾，故匹配不到

#打印结果一次为：['ta']
#             ['tb']
#             ['t$']
#             []

\
----反斜杠后面可以加不同的字符以表示不同特殊意义
----也可以用于取消所有的元字符：\[或者\^
----\d　匹配任何十进制数，它相当于类[0-9]
----\D　匹配任何非数字字符，它相当于类[^0-9]
----\s　匹配任何空白字符，它相当于类[\t\n\r\f\v]
----\S　匹配任何非空白字符，它相当于类[^\t\n\r\f\v]
----\w　匹配任何字母数字字符，它相当于类[a-zA-Z0-9_]
----\W　匹配任何非字母数字字符，它相当于类[^a-zA-Z0-9_]

{}
----可以指定正则表达式的一部分字符的重复次数

#要匹配一个座机号010-12345678这种的
r = r'^010-\d\d\d\d\d\d\d\d'
#也可以写成下面这种,\d{8}就是表示将前面的\d重复8次
r1= r'^010-\d{8}'
print(re.findall(r1,'010-834345498888'))

{m,n}
----其中m和n是十进制整数，该限定符的意思是至少重复m次，至多重复n次

r = r'a{1,3}'  #定义一个正则，表示a至少重复1次，最多重复3次
print(re.findall(r,'a'))
print(re.findall(r,'aa'))
print(re.findall(r,'aaa'))
print(re.findall(r,'aaaa'))

# 返回结果一次是：['a']
#               ['aa']
#               ['aaa']
#               ['aaa', 'a']

----忽略m会认为下边界是0，而忽略n的结果将是上边界为无穷大（实际上是20亿）
----{0}等同于*，{1,}等同于+，而{0,1}则与？相同。如果可以的话，最好使用*，+或？

*
----指定前一个字符可以被匹配零次或多次，而不是只有一次，匹配引擎会试着重复尽可能多的次数

r = r'ab*' #定义一个正则
print(re.findall(r,'a'))  #这个就是a匹配1次，b匹配0次
print(re.findall(r,'abb'))  #这个就是a匹配1次，b匹配2次

+
----表示匹配一次或更多次
----注意*和+之间的不同，*匹配0或更多次，所以可以根本就不出现；而+则要求至少出现一次

r= r'ab+' #定义一个正则
print(re.findall(r,'a'))  #以r这个正则来匹配后面的这个字符串，此时b没有，所以匹配不到
print(re.findall(r,'ab'))  #以r这个正则来匹配后面的这个字符串，此时ab各1次，就能被匹配到

？
----匹配一次或零次，你可以认为它用于标识某事物是可选的

r= r'^010-\d{8}$' #定义一个正则，以010开头，加一个-，以8位数字结尾
print(re.findall(r,'010-123456789')) #这里有9位数，所以匹配不到
print(re.findall(r,'010-12345678'))  #正好8位数，可以被匹配到

#座机号中间的-是可有可无的，可以不写，此时就可以用？来标识
r = r'^010-?\d{8}$'
print(re.findall(r,'01012345678'))  #此时不写-，也能被匹配到
print(re.findall(r,'010-12345678'))  #写一个-，也能被匹配到
print(re.findall(r,'010--12345678'))  #但写两个-，就匹配不到了

----？也可以用作最小匹配

r = r'ab+'
print(re.findall(r,'abbbbbbbbbbbbb')) #做最大匹配，就是最大限度匹配abbbbbbbbbbbbb
r = r'ab+?' 
print(re.findall(r,'abbbbbbbbbbbbb')) #做最小匹配，a和b只匹配一次

码农公寓

相关文章