第11.18节 Python 中re模块的匹配对象

匹配对象是Python中re模块正则表达式匹配处理的返回结果,用于存放匹配的情况。老猿认为匹配对象更多的应该是与组匹配模式的功能对应的,只是没有使用组匹配模式的正则表达式整体作为组0。

为了说明下面的属性和方法,以如下命名组匹配模式串和搜索文本作为例子来介绍:

>>> pattern='<h1 class="name">(?P<name>.*)</h1><h1 class="age">(?P<age>[0-9]{1,3})</h1>'
>>> str='<h1 class="name">LaoYuanPython</h1><h1 class="age">28</h1>'
>>> m=re.search(pattern,str)

匹配对象有如下重要属性:

  1. re:该匹配对象对应的正则表达式。如:
>>> m.re
re.compile('<h1 class="name">(?P<name>.*)</h1><h1 class="age">(?P<age>[0-9]{1,3})</h1>')
  1. string:该匹配对象对应的搜索字符串。如:
>>> m.string
'<h1 class="name">LaoYuanPython</h1><h1 class="age">28</h1>'
  1. lastgroup:最后一个匹配组的名字,如果没有匹配到或没有给组命名则为None。如:
>>> m.lastgroup
'age'
  1. lastindex:最后一个匹配组的序号,关于组的序号请参考《第11.16节 Python正则元字符“()”(小括号)与组(group)匹配模式》的介绍。如:
>>> m.lastindex
2

匹配对象有如下重要方法:

  1. expand(template):对template的模板字符串的反斜杠进行转义并且返回,数字引用(\1, \2)和命名组(\g<1>, \g) 替换为相应组的内容。
>>> m=re.search('(Lao)(\w+)(Python)','LaoYuanPython')
>>> m
<re.Match object; span=(0, 13), match='LaoYuanPython'>
>>> m.expand(r'\1\g<0>\2\n\r')
'LaoLaoYuanPythonYuan\n\r'
>>>

注意组0不能使用\0来访问,必须使用\g<0>进行访问。

2. start([group])、end([group]):表示匹配到的组对应字符串在搜索串中的起始位置和结束位置,其中group可以是组号或组名,可以不传,则默认为组0。如:

>>> m.start(1),m.end(1)
(17, 30)
  1. group([group1, …]):显示对应组匹配的搜索到的结果子串,参数可以为空,则显示组0的匹配结果串即整个搜索串,也可以为多个组,组可以是组号或组名来表示。如:
>>> m.group(0,1,2)
('<h1 class="name">LaoYuanPython</h1><h1 class="age">28</h1>', 'LaoYuanPython', '28')
>>> m.group(0,1,'age')
('<h1 class="name">LaoYuanPython</h1><h1 class="age">28</h1>', 'LaoYuanPython', '28')
  1. groups(default=None):返回一个元组,包含所有参与匹配的子组(不含组0)。 default 参数用于未参与匹配的子组显示,默认为 None.
>>> m.groups()
('LaoYuanPython', '28')
关于未匹配子组的情况,Python官网的如下例子可以说明:
>>> m = re.match(r"(\d+)\.?(\d+)?", "24")
>>> m.groups() # Second group defaults to None.
('24', None)
>>> m.groups('0') # Now, the second group defaults to '0'.
('24', '0')
  1. groupdict(default=None):返回一个字典,包含了所有的 命名 子组(关于命名子组请参考《》的介绍)。key就是组名。 default 参数用于不参与匹配的组合;默认为 None。 例如:
>>> m.groupdict()
{'name': 'LaoYuanPython', 'age': '28'}
  1. span([group]):返回匹配对象对应组匹配到文本在搜索文本中的起始和终止位置的元组,其结果与(m.start(group), m.end(group))相同 。 注意如果 参数group 没有在这个匹配中,就返回 (-1, -1) 。group 默认为0,就是整个匹配。
>>> m.span(1)
(17, 30)

案例:

>>> pattern='<h1 class="name">(?P<name>.*)</h1><h1 class="age">(?P<age>[0-9]{1,3})</h1>'
>>> str='<h1 class="name">LaoYuanPython</h1><h1 class="age">28</h1>'
>>> m=re.search(pattern,str)
>>> m.start('name'),m.end('name')
(17, 30)
>>> m.start(1),m.end(1)
(17, 30)
>>> m.string
'<h1 class="name">LaoYuanPython</h1><h1 class="age">28</h1>'
>>> m.re
re.compile('<h1 class="name">(?P<name>.*)</h1><h1 class="age">(?P<age>[0-9]{1,3})</h1>')
>>> m.lastgroup
'age'
>>> m.lastindex
2

老猿Python,跟老猿学Python!

博客地址:https://blog.csdn.net/LaoYuanPython


请大家多多支持,点赞、评论和加关注!谢谢!

上一篇:Wide character in print at a2.pl line 返回json 需要encode_utf8


下一篇:hdu 2079 选课时间(题目已修改,注意读题)