java如何使用正则提取字符串中的内容
在Java中使用正则表达式提取字符串内容,主要通过java.util.regex
包中的Pattern
和Matcher
类实现。以下是详细步骤和示例:
1. 基础流程
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class RegexExample {public static void main(String[] args) {String text = "订单号:ABC123,日期:2023-08-20,金额:¥500.00";// 1. 定义正则表达式String regex = "([A-Z]{3}\\d{3})|(\\d{4}-\\d{2}-\\d{2})|(¥\\d+\\.\\d{2})";// 2. 编译正则表达式Pattern pattern = Pattern.compile(regex);// 3. 创建Matcher对象Matcher matcher = pattern.matcher(text);// 4. 遍历所有匹配项while (matcher.find()) {// 5. 提取完整匹配内容System.out.println("完整匹配: " + matcher.group(0));// 6. 提取分组内容(如果有分组)for (int i=1; i<=matcher.groupCount(); i++) {if (matcher.group(i) != null) {System.out.println("分组 " + i + ": " + matcher.group(i));}}}}
}
2. 关键方法说明
-
Pattern.compile(regex)
将正则表达式字符串编译为Pattern
对象,可复用。 -
matcher.find()
查找下一个匹配的子序列,返回布尔值。 -
matcher.group(n)
group(0)
:返回完整匹配的字符串group(1)
~group(n)
:返回第n个分组捕获的内容
3. 常见场景示例
场景1:提取所有数字
String text = "苹果5个,香蕉3.5公斤";
Pattern pattern = Pattern.compile("\\d+(\\.\\d+)?");
Matcher matcher = pattern.matcher(text);
while (matcher.find()) {System.out.println(matcher.group()); // 输出 5, 3.5
}
场景2:提取邮箱地址
String text = "联系邮箱:support@example.com 或 admin@test.org";
Pattern pattern = Pattern.compile("\\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Z|a-z]{2,}\\b");
Matcher matcher = pattern.matcher(text);
while (matcher.find()) {System.out.println(matcher.group()); // 输出 support@example.com, admin@test.org
}
4. 高级技巧
使用命名分组(Java 7+)
String text = "姓名:张三,年龄:25";
String regex = "姓名:(?<name>\\w+),年龄:(?<age>\\d+)";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(text);
if (matcher.find()) {System.out.println(matcher.group("name")); // 张三System.out.println(matcher.group("age")); // 25
}
非贪婪匹配
String text = "<div>内容1</div><div>内容2</div>";
Pattern pattern = Pattern.compile("<div>(.*?)</div>"); // 使用 ? 实现非贪婪匹配
Matcher matcher = pattern.matcher(text);
while (matcher.find()) {System.out.println(matcher.group(1)); // 输出 内容1, 内容2
}
5. 注意事项
-
特殊字符转义
如.
、*
、+
等需用\\
转义(如\\.
表示匹配字面量点号)。 -
性能优化
频繁使用的正则表达式应缓存Pattern
对象,避免重复编译。 -
异常处理
无效正则表达式会抛出PatternSyntaxException
,建议用try-catch
处理。 -
空匹配检查
使用matcher.find()
前需确保有匹配结果,否则matcher.group()
会抛出IllegalStateException
。
通过以上方法,您可以灵活提取字符串中的结构化内容。如果需要更复杂的匹配逻辑,可以结合正则表达式语法(如正向预查、负向预查等)实现。