本文整理自 TUM 的英文 NLP 课程。
正则表达式:使用代数符号(例如:+-*/)去表征,查找一系列的字符串,是一种非常简单的分类器(搜索器)。
符号 [ ]:里面的内容代表可选的字符
Pattern | Matches |
---|---|
[wW]oodchuck | Woodchuck or woodchuck |
[1234567890] | a single digit |
符号 [ ‐ ]: 代表范围
Pattern | Matches |
---|---|
[A-Z] | 大写字符 |
[a-z] | 小写字符 |
[0-9] | 单一数字 |
符号 [^ ]: 排除某某(如果把^放在第一位)
Pattern | Matches |
---|---|
[^A-Z] | 非大写字符 |
[^Ss] | 既不是S,也不是s |
[e^] | e 或者 ^ |
[^e^] | 既不是e,也不是^ |
a^b | 就是 a^b嘛 |
符号 |: 选择
Pattern | Matches |
---|---|
yours|mine | yours或者mine |
a|b|c | 既不是S,也不是s |
[gG]roundbog|[Ww]oodchuck | 你懂的 |
grup(y|ies) | gruppy 或 gruppies |
未完结