Java正则表达式

2022-09-24 17:09:24

Java提供了java.util.regex包，用于与正则表达式进行模式匹配。 Java正则表达式与Perl编程语言非常相似，非常容易学习。

正则表达式是一种特殊的字符序列，可使用模式中的专用语法来匹配或查找其他字符串或字符串集。它们可用于搜索，编辑或操作文本和数据。

java.util.regex包主要由以下三个类组成 -

Pattern类 - Pattern对象是正则表达式的编译表示。 Pattern类不提供公共构造函数。要创建模式，需要首先调用它的公共静态compile()方法，然后返回Pattern对象。这些方法接受正则表达式作为第一个参数。
Matcher类 - Matcher对象是解释模式并对输入字符串执行匹配操作的引擎。与Pattern类一样，Matcher没有定义公共构造函数。通过在Pattern对象上调用matcher()方法获取Matcher对象。
PatternSyntaxException - PatternSyntaxException对象是未经检查的异常，指示正则表达式模式中的语法错误。

1. 捕获组

捕获组是将多个字符视为一个单元的一种方法。它们是通过将要分组的字符放在一组括号中来创建的。例如，正则表达式(dog)创建包含字母d，o和g的单个组。

捕获组通过从左到右计算它们的左括号来编号。在表达式((A)(B(C)))中，例如，有四个这样的组 -

((A)(B(C)))
(A)
(B(C))
(C)

要查找表达式中存在多少个组，请在Matcher对象上调用groupCount()方法。 groupCount()方法返回一个int类型值，显示Matcher模式中存在的捕获组数。

还有一个特殊组，即组0，它始终代表整个表达式。该组未包含在groupCount()报告的总数中。

示例

以下示例说明如何从给定的字母数字字符串中查找数字字符串 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   public static void main( String args[] ) {
      // String to be scanned to find the pattern.
      String line = "This order was placed for QT3000! OK?";
      String pattern = "(.*)(\\d+)(.*)";

      // Create a Pattern object
      Pattern r = Pattern.compile(pattern);

      // Now create matcher object.
      Matcher m = r.matcher(line);
      if (m.find( )) {
         System.out.println("Found value: " + m.group(0) );
         System.out.println("Found value: " + m.group(1) );
         System.out.println("Found value: " + m.group(2) );
      }else {
         System.out.println("NO MATCH");
      }
   }
}

执行上面示例代码，得到以下结果：

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

2. 正则表达式语法

下面列出了Java中可用的所有正则表达式元字符语法 -

编号	子表达式	匹配
1	`^`	匹配行的开头。
2	`$`	匹配行的结尾。
3	`.`	匹配除换行符之外的任何单个字符，使用`m`选项也可以匹配换行符。
4	`[...]`	匹配括号中的任何单个字符。
5	`[^...]`	匹配括号内的任何单个字符。
6	`\A`	整个字符串的开头。
7	`\z`	整个字符串的结尾。
8	`\Z`	除允许的最终行终止符之外的整个字符串的结尾。
9	`re*`	匹配前面表达式的`0`次或更多次出现。
10	`re+`	匹配前面表达式的`1`次或更多次出现。
11	`re?`	匹配前面表达式的`0`或`1`次出现。
12	`re{n}`	准确匹配前面表达式的`n`次出现次数。
13	`re{n,}`	准确匹配前面表达式的`n`次以上出现次数。
14	aΙb	匹配`a`或`b`。
15	`(re)`	对正则表达式进行分组并记住匹配的文本。
16	`(?: re)`	将正则表达式分组而不记住匹配的文本。
17	`(?> re)`	匹配独立模式而无需回溯。
18	`\w`	匹配单词字符。
19	`\W`	匹配非单词字符。
20	`\s`	匹配空白符，相当于：`[\t\n\r\f]`
21	`\S`	匹配非空白。
22	`\d`	匹配数字，相当于：`[0-9]`。
23	`\D`	匹配非数字。
24	`\A`	匹配字符串的开头。
25	`\Z`	匹配字符串的结尾。如果存在换行符，则它在换行符之前匹配。
26	`\z`	匹配字符串的结尾。
27	`\G`	匹配最后一个匹配结束的点。
28	`\n`	反向引用以捕获组号：`n`。
29	`\b`	在括号外部匹配单词边界，在括号内匹配退格(`0x08`)。
30	`\B`	匹配非字边界。
31	`\n`,`\t`	匹配换行符，回车符，制表符等。
32	`\E`	转义(引用)所有字符直到`\E`。
33	`\Q`	结束以`\Q`开头引用。

start()和end()方法

以下是计算字符串中：cat一词的出现次数示例 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static final String REGEX = "\\bcat\\b";
   private static final String INPUT = "cat cat cat cattie cat";

   public static void main( String args[] ) {
      Pattern p = Pattern.compile(REGEX);
      Matcher m = p.matcher(INPUT);   // get a matcher object
      int count = 0;

      while(m.find()) {
         count++;
         System.out.println("Match number "+count);
         System.out.println("start(): "+m.start());
         System.out.println("end(): "+m.end());
      }
   }
}

执行上面示例代码，得到以下结果：

Match number 1
start(): 0
end(): 3
Match number 2
start(): 4
end(): 7
Match number 3
start(): 8
end(): 11
Match number 4
start(): 19
end(): 22

可以看到此示例使用单词边界来确保字母：c,a,t不仅仅是较长单词中的子字符串。它还提供了有关输入字符串中匹配发生位置的一些有用信息。

start方法返回上一个匹配操作期间给定组捕获的子序列的起始索引，end返回匹配的最后一个字符的索引加1。

matches和lookingAt方法

matches()和lookingAt()方法都尝试将输入序列与模式匹配。然而，不同之处在于匹配需要匹配整个输入序列，而查找则不需要。

两种方法总是从输入字符串的开头开始。以下是上述方法的示例 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static final String REGEX = "foo";
   private static final String INPUT = "fooooooooooooooooo";
   private static Pattern pattern;
   private static Matcher matcher;

   public static void main( String args[] ) {
      pattern = Pattern.compile(REGEX);
      matcher = pattern.matcher(INPUT);

      System.out.println("Current REGEX is: "+REGEX);
      System.out.println("Current INPUT is: "+INPUT);

      System.out.println("lookingAt(): "+matcher.lookingAt());
      System.out.println("matches(): "+matcher.matches());
   }
}

执行上面示例代码，得到以下结果：

Current REGEX is: foo
Current INPUT is: fooooooooooooooooo
lookingAt(): true
matches(): false

replaceFirst和replaceAll方法
replaceFirst()和replaceAll()方法替换匹配给定正则表达式的文本。正如其名称所示，replaceFirst()替换第一个匹配项，replaceAll()替换所有匹配项。

以下是上述功能的示例 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static String REGEX = "dog";
   private static String INPUT = "The dog says meow. " + "All dogs say meow.";
   private static String REPLACE = "cat";

   public static void main(String[] args) {
      Pattern p = Pattern.compile(REGEX);

      // get a matcher object
      Matcher m = p.matcher(INPUT); 
      INPUT = m.replaceAll(REPLACE);
      System.out.println(INPUT);
   }
}

执行上面示例代码，得到以下结果：

The cat says meow. All cats say meow.

appendReplacement和appendTail方法

Matcher类还提供了appendReplacement和appendTail方法来替换文本。

以下是上述方法的示例 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static String REGEX = "a*b";
   private static String INPUT = "aabfooaabfooabfoob";
   private static String REPLACE = "-";
   public static void main(String[] args) {

      Pattern p = Pattern.compile(REGEX);

      // get a matcher object
      Matcher m = p.matcher(INPUT);
      StringBuffer sb = new StringBuffer();
      while(m.find()) {
         m.appendReplacement(sb, REPLACE);
      }
      m.appendTail(sb);
      System.out.println(sb.toString());
   }
}

执行上面示例代码，得到以下结果：

-foo-foo-foo-

更多JAVA学习资料请访问码农之家网站

码农公寓

1. 捕获组

2. 正则表达式语法

相关文章