一、辅助理解的资料
提醒:按照顺序依次往下看,就会逐渐理解 next 数组的推到过程和代码的原理
二、KMP 基本思想回顾
为了充分利用已经匹配的字符信息,避免多次回溯造成的重复比较而降低了时间效率
两个关键点
在大多数理解的材料中都会以模式串移动的方式呈现,但是实际上在计算机中并不会,如何实现移动?本质就是模式串指针回溯的位置(天勤的时评讲的很清晰),接下来就要讨论到底回溯到哪个位置如何确定,于是引出了 next 数组的概念
三、next 数组的求解和理解
先看代码
void GetNext(char* p,int next[])
{
int pLen = strlen(p);
next[0] = -1;
int k = -1;
int j = 0;
while (j < pLen - 1)
{
if (k == -1 || p[j] == p[k])
{
++k;
++j;
next[j] = k;
}
else
{
k = next[k];
}
}
}
问题:为什么要使用 next 数组?
为了规避 BF 算法中重复比较的问题,同时充分利用已知的信息,用 next 数组记录在下一次比较中字串子帧回溯的位置
注意:next 数组只与子串本身有关,与主串无关
代码理解部分
1. 这是数组下标从 0 开始计数 的版本,数组下标初值设为-1
2. 举例说明两种情况对计算 next 数组值的影响
例如:ABA C ABA B
这里特意用空格隔开方便观察,可以发现相同的字串是ABC
接下来继续扫描
(1)如果下一个字符仍然匹配(D 和 E,这里举例是不匹配的情况),那 next 数组的值就为上一个 j 所指的字符的 next[j] 的值加一
解释:由于前后缀是一样的,既有对称性,如果下一位还匹配,那 j 回溯的位置也会加一,即 next[j]+1 这个值对应的位置
代码如下
++k;
++j;
next[j] = k;
(2)如果下一个字符不匹配,那就不能简单的加一了,思路就是:找更短的前后缀,看有没有匹配的(因为如果下一个不匹配,再前面已经匹配的前提下是有可能找到更短的共同前后缀)
解释:这里实际上是一个递归的思路
>>>对于找更短前后缀的详述
(1)首先我们找到了共同的前后缀,但是扫描到下一个字符发现不匹配,在这个前提下,已经匹配的前后缀应有这个特点:二者有着共同后缀,也就是说后面这部分的后缀等同于前面这部分的后缀
(2)既然两部分相等,那直接在左边这部分找共同的前后缀不就好了,重点:最后共同的前后缀,意思是—>左边的前缀=左边的后缀(共同的),然而在之前的理解中可以知道左边的后缀和右边的后缀相同,即左边的前缀和右边的后缀相同,这就是我们寻找的目标
蓝色标注的那部分就是我们要的目标,之后继续往后扫描,如果相同,则可以构成一个更长的前后缀(这个过程即是计算每一个字符在 next 数组中对应的值)
问题延申:如果找到了更短的前后缀后移动下一个字符还是不匹配要怎么办?
那就继续寻找更小的共同前后缀,依次不断重复这个过程,于是就引出了递归的概念
代码如下
k=next[k]
代码解释
首先要理解 next 数组的含义
-
(1)存储的是遍历当前字符之前的所有字符中最长的公共前后缀长度
-
-
这个位置的特点:当前所指位置之前有相同的前后缀,那便很好理解上面的代码了
代码解释:k 回溯到当前所指位置的 next 数组所存储的值,即意味着找到更短的前缀和第二部分(上面举的例子)的后缀相同
四、next 数组的优化
对于模式串的失配需要进一步分析,如果模式串中后缀失配,而在前面又出现了与之相同的字符,那必然失配,所以不允许出现这种情况(不能允许p[j] = p[ next[j]]),需要进行分类讨论
代码如下
void GetNextval(char* p, int next[])
{
int pLen = strlen(p);
next[0] = -1;
int k = -1;
int j = 0;
while (j < pLen - 1)
{
if (k == -1 || p[j] == p[k])
{
++j;
++k;
if (p[j] != p[k])
next[j] = k;
else
next[j] = next[k];
}
else
{
k = next[k];
}
}
}
说明:从代码的逻辑角度分析,if 的条件是不允许出现 p[j] = p[next[j]](之前设了 next[j]=k),那 else 的条件就是出现了相等,那相等了不就需要继续进行递归,那代码也很容易理解了