如何在Python中使用正则表达式替换特定格式的文本?
在Python中使用正则表达式替换特定格式的文本,主要通过re
模块的sub()
和subn()
函数实现。这两个函数可以根据正则表达式模式查找匹配内容,并替换为指定的字符串或通过函数生成的内容。
一、核心函数
-
re.sub(pattern, repl, string, count=0, flags=0)
- 功能:替换字符串中所有匹配
pattern
的子串为repl
- 返回值:替换后的新字符串
- 参数:
pattern
:正则表达式模式repl
:替换的字符串或回调函数string
:原始字符串count
:最大替换次数(默认0表示全部限制)flags
:正则匹配标志(如re.IGNORECASE
忽略大小写)
- 功能:替换字符串中所有匹配
-
re.subn(pattern, repl, string, count=0, flags=0)
- 功能:与
sub()
类似,但返回(新字符串, 替换次数)
的元组
- 功能:与
二、常用替换场景示例
1. 基础替换:固定字符串替换
将匹配的文本替换为固定内容。
import re# 将所有数字替换为"*"
text = "密码: 123456, 验证码: 789"
result = re.sub(r"\d+", "*", text)
print(result) # 输出: 密码: *, 验证码: *# 限制替换次数(只替换前1个)
result = re.sub(r"\d+", "*", text, count=1)
print(result) # 输出: 密码: *, 验证码: 789
2. 分组替换:利用匹配的分组内容
通过()
捕获分组,在替换字符串中用\1
、\2
等引用分组内容(类似变量复用)。
import re# 交换姓名格式:" lastName, firstName" → "firstName lastName"
text = "Bond, James; Doe, John"
pattern = r"(\w+), (\w+)" # 分组1:姓氏,分组2:名字
result = re.sub(pattern, r"\2 \1", text) # 用\2和\1交换顺序
print(result) # 输出: James Bond; John Doe# 格式化日期:"MM/DD/YYYY" → "YYYY-MM-DD"
text = "今天是10/05/2023,昨天是10/04/2023"
pattern = r"(\d{2})/(\d{2})/(\d{4})" # 分组1:月,分组2:日,分组3:年
result = re.sub(pattern, r"\3-\1-\2", text)
print(result) # 输出: 今天是2023-10-05,昨天是2023-10-04
3. 函数替换:动态生成替换内容
当替换规则复杂时,repl
可以是一个函数,根据匹配结果动态生成替换内容。
import re# 将数字乘以2(如"3"→"6","10"→"20")
def double_num(match):num = int(match.group()) # 获取匹配的数字return str(num * 2)text = "单价: 5, 数量: 3, 总价: 15"
result = re.sub(r"\d+", double_num, text)
print(result) # 输出: 单价: 10, 数量: 6, 总价: 30# 敏感信息脱敏:保留手机号前3位和后4位,中间用*代替
def mask_phone(match):phone = match.group()return phone[:3] + "****" + phone[-4:]text = "联系电话: 13812345678, 备用电话: 19987654321"
result = re.sub(r"1[3-9]\d{9}", mask_phone, text)
print(result) # 输出: 联系电话: 138****5678, 备用电话: 199****4321
4. 忽略大小写替换
通过flags=re.IGNORECASE
(简写re.I
)忽略大小写匹配。
import re# 将"apple"(不区分大小写)替换为"banana"
text = "Apple, APPLE, apple"
result = re.sub(r"apple", "banana", text, flags=re.IGNORECASE)
print(result) # 输出: banana, banana, banana
5. 移除特定格式内容
将匹配的内容替换为空字符串,实现"删除"效果。
import re# 移除HTML标签(如<a>、<div>等)
html = "<h1>标题</h1><p>内容</p>"
result = re.sub(r"<.*?>", "", html) # 匹配所有标签并替换为空
print(result) # 输出: 标题内容# 移除字符串中的所有标点符号
text = "Hello, World! 这是一个示例:test."
result = re.sub(r"[^\w\s]", "", text) # [^\w\s]匹配非单词和非空白字符
print(result) # 输出: Hello World 这是一个示例 test
三、关键技巧
- 使用
r
前缀:替换字符串建议加r
前缀(原始字符串),避免\
被转义(如r"\2"
正确引用分组2)。 - 贪婪与非贪婪匹配:替换时注意模式的匹配范围,必要时用
?
启用非贪婪模式(如.*?
匹配尽可能少的字符)。 - 预编译模式:频繁替换时,用
re.compile()
编译模式提升效率:pattern = re.compile(r"\d+") result = pattern.sub("*", "A1B2C3") # 输出: "A*B*C*"
通过sub()
和subn()
,可以灵活处理各种替换需求,从简单的固定替换到复杂的动态生成替换内容,正则表达式都能高效完成。