当前位置：首页 > news >正文

shell 脚本：正则表达式

news 2025/9/15 5:47:23

正则表达式是你所定义的模式模板，Linux工具可以用它来过滤文本。Linux工具（比如sed编辑器或gawk程序）能够在处理数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式，它就会被接受并进一步处理；如果数据不匹配模式，它就会被滤掉。

数据流 → 正则表达式 → (1)匹配的数据 (2)滤掉的数据

正则表达式（Regular Expression，简称RE），是用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的分割、匹配、查找及替换操作。即正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。

简单来说，正则表达式是通过一些特殊字符的排序，用以删除、查找、替换一行或者多行文字字符串的程序。

正则表达式通常用于判断语句中，用来检查某一字符串是否满足某一格式。正则表达式是由普通字符与元字符组成：

给定一个正则表达式和另一个字符串，我们可以达到如下目的：

注意：egrep、awk使用{n}、{n,}、{n,m}匹配时，“{}“前不用加””

示例原始文件

[root@yanyvhang ~]# vim a.txt
# 内容
lk
lok
look
loook
looooook
loooooaaak
looooooook
abbbbcd
abbbbcd666
ooooloooook
oooooolk
aoblck
labk

[root@yanyvhang ~]# vim b.txt
# 内容
aaabd
cdd
cdc
cdd

[root@yanyvhang ~]# vim c.txt
# 内容
lok
lo12k
lo1k
loAk
loBk
look
loak
lodk
abcd
1234

* 匹配前面一个字符0次或者多次
```
[root@yanyvhang ~]# grep "loo*k" a.txt
[root@yanyvhang ~]# grep "lo*k" a.txt
```
在文件 a.txt 中搜索

* 表示前面的字符 o 可以出现零次或多次
. 匹配除 \n 之外的任意的一个字符
```
[root@yanyvhang ~]# grep "lo.*k" a.txt
[root@yanyvhang ~]# grep "lo.k" a.txt
[root@yanyvhang ~]# grep "l..k" a.txt
```
在文件 a.txt 中搜索

. 匹配任意单个字符，* 表示前面的元素（即 .）可以出现零次或多次

即表示匹配任意长度的任意字符串
匹配次数控制

[root@yanyvhang ~]# grep "lo\{3\}k" a.txt 
[root@yanyvhang ~]# grep "lo\{3,\}k" a.txt 
[root@yanyvhang ~]# grep "lo\{3,5\}k" a.txt

{3\} 前面的一个字符（o）出现3次

{3,\} 前面的一个字符（o）出现不少于3次

{3,5\} 前面的一个字符（o）出现3到5次

在这里插入图片描述

匹配字符串开始和结束的位置置

[root@yanyvhang ~]# grep "^c" b.txt 
[root@yanyvhang ~]# grep "d$" b.txt 
[root@yanyvhang ~]# grep "^$" b.txt

^c 匹配以 c 开头的字符串

d$ 匹配以 d 结尾的字符串

^$ 匹配空行

在这里插入图片描述

匹配列表中的字符或非列表字符
```
[root@yanyvhang ~]# grep "lo[a-zA-Z0-9]k" c.txt 
[root@yanyvhang ~]# grep "lo[ABo]k" c.txt 
[root@yanyvhang ~]# grep "lo[^a-zA-Z]k" c.txt 
[root@yanyvhang ~]# grep "[^a-zA-Z]" c.txt 
```
lo[a-zA-Z0-9]k 表示在 lo 和 k 中匹配的字符为任意字母和数字

lo[ABo]k 表示在 lo 和 k 中匹配的字符为 A B o 中的一个

lo[^a-zA-Z]k 表示在 lo 和 k 中匹配的字符非字母

[^a-zA-Z] 表示非纯字母的字符串

扩展正则表达式在基础正则的基础上增加了更多元字符，功能更强大（常用工具：egrep, awk）

因为文档格式原因这里使用 I 代替 | （管道符，使用时请注意）

注意：在扩展正则中，{} 前不需要加转义符 \

匹配前面一个字符1次以上

[root@yanyvhang ~]# egrep "lo+k" a.txt

在这里插入图片描述

匹配前面一个字符0次或者1次

[root@yanyvhang ~]# egrep "lo?k" a.txt

在这里插入图片描述

将括号中的字符串作为一个整体

[root@yanyvhang ~]# egrep "l(oo)+k" a.txt

在这里插入图片描述

以或的方式匹配字条串

[root@yanyvhang ~]# egrep "l(oo|ab)+k" a.txt

在这里插入图片描述

允许为可重复的正则表达式指定一个上限

[root@yanyvhang ~]# egrep "lo{3}k" a.txt 
[root@yanyvhang ~]# egrep "lo{3,}k" a.txt 
[root@yanyvhang ~]# egrep "lo{3,5}k" a.txt

在这里插入图片描述

POSIX标准定义了一些特殊的字符组，用于匹配特定类型的字符：