当前位置: 首页 > news >正文

35.KMP 算法

一、字符串匹配问题

字符串匹配问题可以描述为:给定字符串 T,ST,ST,S,在主串 SSS 中寻找子串 TTT。我们称字符串 TTT 为文本串,字符 SSS 为模式串,长度分别为 m,nm,nm,n。如果用朴素的算法进行匹配,那么最坏情况下,比较的次数是两个字符串长度的相乘,即 O(mn)O(mn)O(mn)

本节我们将介绍一种用于字符串匹配的算法,即 KMP 算法。该算法解决此问题的最坏比较次数是两个字符串长度的相加。如果我们要求的是字符串 SSS 的所有后缀与字符串 TTT 的最长公共前缀,那么我们就需要使用到扩展 KMP 算法(Z 函数),从名字就可以看出来二者在思想上有高度相关性。由于两者的高度相关性,接下来我们首先介绍 KMP 算法

二、KMP 算法

1.基本介绍

在计算机科学中,KMP 算法可在一个文本串 TTT 内查找一个模式串 SSS 的出现位置。该算法通过对这个词在不匹配时本身包含的信息来确定下一个匹配将在哪里开始的发现,从而避免重新检查先前匹配的字符,提高程序运行效率。具体来说,KMP 算法在匹配前会预处理模式串 SSS,得到一个 NextNextNext 数组。借助 NextNextNext 数组,可以在匹配过程中减少很多冗余的匹配操作,由此提高了算法的效率。KMP 算法的时间复杂度为 O(n+m)O(n+m)O(n+m),其中 nnnmmm 分别表示两个串的长度。

2.匹配过程

KMP 算法的核心就是利用 NextNextNext 数组来加快匹配,对于字符串 s=s0s1…sn−1s=s_0s_1\ldots s_{n-1}s=s0s1sn1,如果 jjj 是满足 s0…j=si−j…is_{0\ldots j}=s_{i-j\ldots i}s0j=siji 的最大值,则 Nexti=j(j<i)Next_i=j(j<i)Nexti=j(j<i)。如果不存在 s0…j=si−j…is_{0\ldots j}=s_{i-j\ldots i}s0j=siji 的情况,我们设 Nexti=−1Next_i=-1Nexti=1

假设我们已经求得了模式串 SSSNextNextNext 数组,下面我们来看如何利用其求出字符串 S,TS,TS,T 的匹配,以下面这张图为例子。
在这里插入图片描述

  • 设文本串为 TTT,模式串为 SSS。若 Ti−j−1…i−1=S0…jT_{i-j-1 \ldots i-1}=S_{0 \ldots j}Tij1i1=S0jTi≠Sj+1T_{i}\neq S_{j+1}Ti=Sj+1
  • 现在我们假设存在 j′>Nextjj'>Next_jj>Nextj 使得 Ti−j′−1…i−1=S0…j′T_{i-j'-1 \ldots i-1}=S_{0 \ldots j'}Tij1i1=S0j 成立,也就是上图最后一条线的情况。那么我们不难得到 S0…j′=Sj−j′…jS_{0\ldots j'}=S_{j-j'\ldots j}S0j=Sjjj,这意味着 failj≥j′fail_j\geq j'failjj,这与 j′>Nextjj'>Next_jj>Nextj 矛盾。
  • 因此不存在 j′>Nextjj'>Next_jj>Nextj 使得 Ti−j′−1…i−1=S0…j′T_{i-j'-1 \ldots i-1}=S_{0 \ldots j'}Tij1i1=S0j 成立。所以我们可以直接从 jjj 跳到 NextjNext_jNextj,因为图中的 A,BA,BA,B 段相同,自然满足匹配条件。
  • 重复这个过程直到与模式串的匹配完成即可。这就是我们利用 NextNextNext 数组来加速匹配的原理。

核心代码如下所示:

void KMP()
{ll m = strlen(t), n = strlen(s);ll j = -1;for(ll i = 0; i < m; i++){while(j != -1 && s[j + 1] != t[i])j = Next[j];if(s[j + 1] == t[i]){j++;if(j == n - 1)ans[++count1] = i - n + 1;}}
}

3.求 NextNextNext 数组

现在我们来考虑如何求得 NextNextNext 数组,不难发现求 NextNextNext 数组实际上就是求模式串和自己的匹配,因此我们可以用与上面同样的方法来求出 NextNextNext 数组。因为 j>Nextjj>Next_jj>Nextj,所以我们总能用前面的 NextNextNext 来更新后面的情况。

核心代码如下所示:

void Get_Next()
{ll n = strlen(s);Next[0] = -1;for(ll i = 1; i < n; i++){ll j = Next[i - 1];while(j != -1 && s[j + 1] != s[i])j = Next[j];if(s[j + 1] == s[i])j++;Next[i] = j;}
}

三、扩展 KMP 算法

四、作业

1.KMP 算法

(1)绿题

P3375 【模板】KMP

P4391 [BalticOI 2009] Radio Transmission 无线传输

CF1200E Compress Words

(2)蓝题

P4824 [USACO15FEB] Censoring S

P3435 [POI 2006] OKR-Periods of Words

P2375 [NOI2014] 动物园

2.扩展 KMP 算法


文章转载自:
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://.
http://www.dtcms.com/a/281614.html

相关文章:

  • 分发糖果-leetcode
  • Kafka亿级消息资源组流量掉零故障排查
  • 【LLIE专题】通过通道选择归一化提升模型光照泛化能力
  • MySQL 8.0 OCP 1Z0-908 题目解析(25)
  • 【QT】实现应用程序启动画面
  • 笔试——Day9
  • linux kernel的错误编码指针详细介绍
  • 【深度学习新浪潮】什么是任意倍率超分?
  • 知识库信息切片,AI降本增效的利刃
  • Unity灯光面板环境设置
  • [Python] -实用技巧6-Python中with语句和上下文管理器解析
  • 身份核验自动化-姓名身份证号二要素核验接口-API实名验证
  • 计算机系统方向可发会议/期刊参考时间
  • CF1916D Mathematical Problem 题解
  • 数据结构——顺序表的相关操作
  • TypeScript之旅
  • 读取ubuntu的磁盘分区表与超级块
  • 万字长文深度解析:AI搜索范式背后的四大核心模块
  • Typescript 泛型
  • 智慧跳绳全方案:三模无线+姿态感知,低功耗高精度芯片选型指南OM6626/SI24R2E
  • 【flex布局】
  • Python实现按数字命名合并文本文件
  • 推客小程序开发全景指南:从商业模式到用户体验的完整方法论
  • 前端开发数据缓存方案详解
  • Spring Boot全局异常处理:打造坚如磐石的应用防线
  • C++ - 仿 RabbitMQ 实现消息队列--muduo快速上手
  • 【每日刷题】螺旋矩阵
  • 【Python】定时器快速实现
  • 并发编程-volatile
  • Python学习之路(十二)-开发和优化处理大数据量接口