前言:在使用正则表达式进行数据提取处理时,属于CPU密集型
一、常用字符解析
. : 匹配除换行符之外的字符串
\w: 字母数字下划线
\d:数字
\s:空格
^:开始
$:结束
[] / | :或
[^]:非
二、量词
* :0或N次
+ :1或N次
?:0或1次
{n, m}:重复n到m次
非贪婪匹配:.*?
贪婪匹配:.*
三、常用方法
re.complie() 编译
re.match() 匹配开头,没有返回None
re.search() 匹配全文,返回第一个值
re.findall() 匹配全文,以列表形式返回所有值
re.sub(表达式,原字符串,替换字符串,字符串变量) 全文匹配替换
re.finditer() 匹配全文,结果以迭代器的方式返回,next()获取具体数据
re.split() 切割