[NLP] 2.1 RE 正则表达式

本文整理自 TUM 的英文 NLP 课程。

正则表达式:使用代数符号(例如:+-*/)去表征,查找一系列的字符串,是一种非常简单的分类器(搜索器)。


符号 [ ]:里面的内容代表可选的字符

Pattern Matches
[wW]oodchuck Woodchuck or woodchuck
[1234567890] a single digit

符号 [ ‐ ]: 代表范围

Pattern Matches
[A-Z] 大写字符
[a-z] 小写字符
[0-9] 单一数字

符号 [^ ]: 排除某某(如果把^放在第一位)

Pattern Matches
[^A-Z] 大写字符
[^Ss] 既不是S,也不是s
[e^] e 或者 ^
[^e^] 既不是e,也不是^
a^b 就是 a^b嘛

符号 |: 选择

Pattern Matches
yours|mine yours或者mine
a|b|c 既不是S,也不是s
[gG]roundbog|[Ww]oodchuck 你懂的
grup(y|ies) gruppy 或 gruppies

未完结

上一篇:手机号码 正则表达式


下一篇:邮政编码的正则表达式