Java工程师必知词汇:正则表达式

|名词定义|

正则表达式(Regular Expression,常简写为regex、regexp或RE),又称正则表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。

正则表达式最早是从Perl语言中发展而来的,而后在JDK 1.4以前需要使用到正则表达式的相关定义则需要单独引入其他的*.jar文件,但是从JDK1.4后,正则已经默认被JDK所支持,并提供有java.util.regex开发包,同时针对于String 类也增加了对于正则的验证方法。

|常用正则标记Pattern类|

从JDK1.4开始提供java.util.regex开发包,这个包中提供有一个Pattern类,在这个类中定义有所有支持的正则标记。
1、 【数量:单个】字符匹配

  • 任意字符:表示由任意字符组成;
  • \\:匹配 “\”;
  • \n:匹配换行;
  • \t:匹配制表符;

2、【数量:单个】字符集(可以从里面任选一个字符)

  • [abc]:表示可能是字母a、b、c中的任意一个;
  • [^abc]:表示不是由字母a、b、c中的任意一个;
  • [a-zA-Z]:表示由一个任意的字母所组成,不区分大小写;
  • [0-9]:表示由一位数字所组成;

3、【数量:单个】简化字符集

  • .:表示任意的一个字符;
  • \d:等价于“[0-9]”范围;
  • \D:等价于“[^0-9]”范围;
  • \s:匹配任意一位空格,可能是空格、换行、制表符;
  • \S:匹配任意的非空格数据;
  • \w:匹配字母、数字、下划线,等价于“[a-zA-Z_0-9]”;
  • \W:匹配非字母、数字、下划线,等价于“[^a-zA-Z_0-9]”;

4、边界匹配:

  • ^:匹配边界开始;
  • $:匹配边界结束;

5、数量表达,默认情况下只有添加上了数量单位才可以匹配多位字符;

  • 表达式?:该正则可以出现0次或1次;
  • 表达式*:该正则可以出现0次、1次或多次;
  • 表达式+:该正则可以出现1次或多次;
  • 表达式{n}:表达式的长度正好为n次;
  • 表达式{n,}:表达式的长度为n次以上;
  • 表达式{n,m}:表达式的长度在n~m次;

6、逻辑表达式:可以连接多个正则:

  • 表达式X表达式Y:X表达式之后紧跟上Y表达式;
  • 表达式X|表达式Y:有一个表达式满足即可;
  • (表达式):为表达式设置一个整体描述,可以为整体描述设置数量单位;

|String类对正则的支持|

在String中提供有如下与正则有关的操作方法:
1.将指定字符串进行正则判断:public boolean matches(String regex);
2.替换全部:public String replaceAll(String regex, String replacement);
3.替换首个:public String replaceFirst(String regex, String replacement);
4.正则拆分:public String[] split(String regex);
5.正则指定个数拆分:public String[] split(String regex, int limit);

使用正则的最大特点在于方便进行验证处理,以及方便进行复杂字符串的修改处理。

|参考资料|

[1] 阿里云大学Java视频课程
[2] Java开发者
[3] *

上一篇:Java工程师必知词汇:栈


下一篇:Java工程师必知词汇:Lambda表达式