十分钟学会正则表达式

十分钟学会正则表达式

(一)限定符
1、?:它前面的字符需要出现0次或1次

例如:used?可以匹配到use和used
2、*:它会匹配0个或多个字符

例如:ab*c可以匹配到ac,abc,abbbbbbc
3、+:它会匹配一次及以上的字符

例如:ab+c可以匹配abc,abbbc,而不会匹配ac
4、{}:可以限定匹配的数量

例如:ab{6}c,则匹配到abbbbbbc,而要限定b的数量在2到6之间,则是ab{2,6}c,如果只是两次以上,则省略括号里的6,写成ab{2,}c
(二)"或"运算符
例如:a (cat|dog)匹配的是a cat和a dog
(三)字符类
[]:表示里面的内容只能取自于它们

例如:[a-z]表示所有小写的英文字母,[abc]能匹配到abc,aabbcc,abcc,[a-zA-Z]表示所有的英文字母,如果在[]前加上^,表示[]之外的字符
(四)元字符
\d:数字字符,等同于[0-9]
\w:单词字符
\s:空白符,包含Tab和换行符
\D:非数字字符
\W:非单词字符
\S:非空白符
.:代表任意字符,不包含换行符
^:匹配行首

例如:^a匹配abv,acccn
$:匹配行尾

例如:a 匹 配 t e a , c b a ∗ ∗ ( 五 ) 贪 婪 与 懒 惰 匹 配 ∗ ∗ 贪 婪 匹 配 : 正 则 表 达 式 通 常 的 行 为 是 匹 配 尽 可 能 多 的 字 符 , 比 如 这 个 表 达 式 : a . ∗ b , 它 将 会 匹 配 最 长 的 以 a 开 始 , 以 b 结 束 的 字 符 串 , 如 果 用 它 来 搜 索 a a b a b 的 话 , 它 会 匹 配 整 个 字 符 串 a a b a b 懒 惰 匹 配 : 就 是 匹 配 尽 可 能 少 的 字 符 , 在 能 使 整 个 匹 配 成 功 的 前 提 下 使 用 最 少 的 重 复 , 只 要 在 它 后 面 加 上 一 个 问 号 ? 即 可 , 例 如 a . ∗ ? b 匹 配 最 短 的 , 以 a 开 始 , 以 b 结 束 的 字 符 串 , 如 果 把 它 应 用 于 a a b a b 的 话 , 它 会 匹 配 a a b 和 a b , 为 什 么 第 一 个 匹 配 是 a a b ( 第 一 到 第 三 个 字 符 ) 而 不 是 a b ( 第 二 到 第 三 个 字 符 ) ? 简 单 地 说 , 因 为 正 则 表 达 式 有 一 条 比 懒 惰 / 贪 婪 规 则 优 先 级 更 高 的 规 则 , 就 是 : 最 先 开 始 的 匹 配 拥 有 最 高 的 优 先 权 ∗ ∗ ( 六 ) 常 用 的 正 则 表 达 式 大 全 ∗ ∗ 1. 数 字 : [ 0 − 9 ] ∗ 匹配tea,cba **(五)贪婪与懒惰匹配** 贪婪匹配:正则表达式通常的行为是匹配尽可能多的字符,比如这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串,如果用它来搜索aabab的话,它会匹配整个字符串aabab 懒惰匹配:就是匹配尽可能少的字符,在能使整个匹配成功的前提下使用最少的重复,只要在它后面加上一个问号?即可,例如a.*?b匹配最短的,以a开始,以b结束的字符串,如果把它应用于aabab的话,它会匹配aab和ab,为什么第一个匹配是aab(第一到第三个字符)而不是ab(第二到第三个字符)?简单地说,因为正则表达式有一条比懒惰/贪婪规则优先级更高的规则,就是:最先开始的匹配拥有最高的优先权 **(六)常用的正则表达式大全** 1.数字:^[0-9]* 匹配tea,cba∗∗(五)贪婪与懒惰匹配∗∗贪婪匹配:正则表达式通常的行为是匹配尽可能多的字符,比如这个表达式:a.∗b,它将会匹配最长的以a开始,以b结束的字符串,如果用它来搜索aabab的话,它会匹配整个字符串aabab懒惰匹配:就是匹配尽可能少的字符,在能使整个匹配成功的前提下使用最少的重复,只要在它后面加上一个问号?即可,例如a.∗?b匹配最短的,以a开始,以b结束的字符串,如果把它应用于aabab的话,它会匹配aab和ab,为什么第一个匹配是aab(第一到第三个字符)而不是ab(第二到第三个字符)?简单地说,因为正则表达式有一条比懒惰/贪婪规则优先级更高的规则,就是:最先开始的匹配拥有最高的优先权∗∗(六)常用的正则表达式大全∗∗1.数字:[0−9]∗
2.n位的数字:^\d{n}$
3.至少n位的数字:^\d{n,}$
4.m-n位的数字:^\d{m,n}$
5.零和非零开头的数字:^(0|[1-9][0-9])$
6.非零开头的最多带两位小数的数字:^([1-9][0-9]
)+(.[0-9]{1,2})?$
7.带1-2位小数的正数或负数:^(-)?\d+(.\d{1,2})?$
8.正数、负数、和小数:^(-|+)?\d+(.\d+)?$
9.有两位小数的正实数:1+(.[0-9]{2})?$
10.有1~3位小数的正实数:2+(.[0-9]{1,3})?$
11.非零的正整数:3\d*$ 或 ^([1-9][0-9]){1,3}$ 或 ^+?[1-9][0-9]$
12.非零的负整数:^-[1-9][]0-9"$ 或 ^-[1-9]\d$
13.非负整数:^\d+$ 或 4\d*|0$
14.非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
15.非负浮点数:^\d+(.\d+)?$ 或 5\d*.\d*|0.\d*[1-9]\d*|0?.0+|0$
16.非正浮点数:^((-\d+(.\d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d*.\d*|0.\d*[1-9]\d*))|0?.0+|0$
17.正浮点数:6\d*.\d*|0.\d*[1-9]\d*$ 或 ^(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$
18.负浮点数:^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$ 或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$
19.浮点数:^(-?\d+)(.\d+)?$ 或 ^-?([1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0)$
1.汉字:7{0,}$
2.英文和数字:8+$ 或 9{4,40}$
3.长度为3-20的所有字符:^.{3,20}$
4.由26个英文字母组成的字符串:10+$
5.由26个大写英文字母组成的字符串:11+$
6.由26个小写英文字母组成的字符串:12+$
7.由数字和26个英文字母组成的字符串:13+$
8.由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$
9.中文、英文、数字包括下划线:14+$
10.中文、英文、数字但不包括下划线等符号:15+$ 或 16{2,20}$
1.Email地址:^\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)$
2.域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3.InternetURL:[a-zA-z]+://[^\s]
或 ^http://([\w-]+.)+[\w-]+(/[\w-./?%&=])?$
4.手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5.电话号码(“XXX-XXXXXXX”、“XXXX-XXXXXXXX”、“XXX-XXXXXXX”、“XXX-XXXXXXXX”、"XXXXXXX"和"XXXXXXXX):^((\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6.国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7.身份证号(15位、18位数字):^\d{15}|\d{18}$
8.短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9.帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):17[a-zA-Z0-9_]{4,15}$
10.密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):18\w{5,17}$
11.强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.
\d)(?=.[a-z])(?=.[A-Z]).{8,10}$
12.日期格式:^\d{4}-\d{1,2}-\d{1,2}
13.一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$
14.一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
15.xml文件:^([a-zA-Z]±?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$
16.中文字符的正则表达式:[\u4e00-\u9fa5]
17.双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
18.空白行的正则表达式:\n\s*\r (可以用来删除空白行)
19.首尾空白字符的正则表达式:^\s*|\s*KaTeX parse error: Undefined control sequence: \s at position 4: 或(^\̲s̲*)|(\s*) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
20.腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)
21.中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
22.IP地址:\d+.\d+.\d+.\d+ (提取IP地址时有用)
23.IP地址:((?

上一篇:学爬虫前必备知识-数据提取


下一篇:Java语言十五讲(第八讲 Regular Expression正则表达式)