当前位置：首页 > news >正文

数据结构KMP算法详解：C语言实现

news 2025/10/3 6:54:23

算法概述

KMP算法（Knuth-Morris-Pratt算法）是一种高效的字符串匹配算法，由D.E.Knuth、J.H.Morris和V.R.Pratt于1977年联合发表。该算法通过预处理模式串，构建next数组，在匹配失败时利用已有信息跳过不必要的比较，将时间复杂度从暴力匹配的O(m*n)优化到O(m+n)。

算法设计思路

设计动机与核心思想

问题分析：
传统暴力匹配算法在每次匹配失败时，主串指针都要回溯到上一次匹配位置的下一个字符，模式串指针回到开头，导致大量重复比较。

核心洞察：
当匹配失败时，我们其实已经获得了一些有用的信息——已经成功匹配的前缀部分。KMP算法的核心思路就是利用这些信息，避免主串指针的回溯，只移动模式串指针。

设计思路演变：

观察现象：在匹配过程中，部分匹配的前缀可能包含重复的模式
关键发现：已匹配部分的前缀和后缀可能存在公共部分
解决方案：构建next数组记录这些信息，指导匹配失败时的回溯位置
优化目标：主串指针不回溯，只调整模式串指针位置

算法核心原理

部分匹配表（Next数组）

Next数组是KMP算法的核心，它记录了模式串中"前缀"和"后缀"的最长公共元素长度。当匹配失败时，Next数组告诉我们下一步应该从模式串的哪个位置开始重新匹配。

Next数组定义：

next[0] = -1
next[i] = 长度为i的模式串子串中，使得前缀和后缀相等的最大长度

算法执行流程

预处理模式串，构建next数组
使用双指针在主串和模式串中进行匹配
当字符匹配时，双指针同时前进
当字符不匹配时，根据next数组回溯模式串指针

函数详解

1. 构建Next数组函数

属性	说明
头文件	`#include <stdio.h>` `#include <string.h>` `#include <stdlib.h>`
函数名	`void getNext(char* pattern, int* next)`
参数	`pattern`：模式字符串 `next`：next数组指针
返回值	无
参数示例	`pattern = "ABABC"` `next`：长度为5的整型数组
示例含义	为模式串"ABABC"构建next数组

2. KMP匹配函数

属性	说明
头文件	`#include <stdio.h>` `#include <string.h>` `#include <stdlib.h>`
函数名	`int kmpSearch(char* text, char* pattern)`
参数	`text`：主文本字符串 `pattern`：要匹配的模式字符串
返回值	匹配成功的起始位置，未找到返回-1
参数示例	`text = "ABABDABACDABABC"` `pattern = "ABABC"`
示例含义	在主串中查找模式串"ABABC"

C语言实现

#include <stdio.h>
#include <string.h>
#include <stdlib.h>void getNext(char* pattern, int* next) {int len = strlen(pattern);next[0] = -1;int i = 0, j = -1;while (i < len - 1) {if (j == -1 || pattern[i] == pattern[j]) {i++;j++;next[i] = j;} else {j = next[j];}}
}int kmpSearch(char* text, char* pattern) {int tLen = strlen(text);int pLen = strlen(pattern);if (pLen == 0) return 0;int* next = (int*)malloc(pLen * sizeof(int));getNext(pattern, next);int i = 0, j = 0;while (i < tLen && j < pLen) {if (j == -1 || text[i] == pattern[j]) {i++;j++;} else {j = next[j];}}free(next);if (j == pLen) {return i - j;} else {return -1;}
}int main() {char text[] = "ABABDABACDABABC";char pattern[] = "ABABC";int pos = kmpSearch(text, pattern);if (pos != -1) {printf("模式串在主串中的位置: %d\n", pos);printf("主串: %s\n", text);printf("匹配: ");for (int i = 0; i < pos; i++) printf(" ");printf("%s\n", pattern);} else {printf("未找到匹配的模式串\n");}return 0;
}

代码详细解析

getNext函数解析

void getNext(char* pattern, int* next) {int len = strlen(pattern);      // 获取模式串长度next[0] = -1;                  // 初始化第一个位置int i = 0, j = -1;             // i:后缀末尾, j:前缀末尾while (i < len - 1) {          // 遍历模式串if (j == -1 || pattern[i] == pattern[j]) {i++; j++;              // 前后缀匹配成功next[i] = j;           // 设置next值} else {j = next[j];           // 回溯到前一个匹配位置}}
}

执行示例：
模式串"ABABC"的next数组构建过程：

next[0] = -1

next[1] = 0 (A)

next[2] = 0 (AB)

next[3] = 1 (ABA → 公共前后缀"A")

next[4] = 2 (ABAB → 公共前后缀"AB")

kmpSearch函数解析

int kmpSearch(char* text, char* pattern) {int tLen = strlen(text);       // 主串长度int pLen = strlen(pattern);    // 模式串长度if (pLen == 0) return 0;      // 空模式串直接返回int* next = (int*)malloc(pLen * sizeof(int));getNext(pattern, next);        // 构建next数组int i = 0, j = 0;             // i:主串指针, j:模式串指针while (i < tLen && j < pLen) {if (j == -1 || text[i] == pattern[j]) {i++; j++;              // 字符匹配，双指针前进} else {j = next[j];           // 根据next数组回溯}}free(next);                    // 释放内存if (j == pLen) {return i - j;              // 返回匹配位置} else {return -1;                 // 未找到}
}

算法思路深度解析

为什么需要KMP算法？

暴力匹配的缺陷：

// 暴力匹配示例
int bruteForce(char* text, char* pattern) {int tLen = strlen(text);int pLen = strlen(pattern);for (int i = 0; i <= tLen - pLen; i++) {int j;for (j = 0; j < pLen; j++) {if (text[i + j] != pattern[j]) break;}if (j == pLen) return i;}return -1;
}

问题分析：

每次匹配失败，i都要回溯到i+1，j回到0 产生大量重复比较时间复杂度最坏O(m*n)

KMP的优化思路

关键观察：
当在位置i匹配失败时，text[i-j...i-1]与pattern[0...j-1]是匹配的。
如果pattern[0...k-1] = pattern[j-k...j-1]，那么可以直接将pattern向右滑动j-k位。

设计步骤：

预处理阶段：分析模式串的自相似性，构建next数组
匹配阶段：利用next数组避免主串指针回溯
回溯策略：当不匹配时，模式串指针跳转到next[j]位置

Next数组的设计思路

设计目标：
对于每个位置j，找到最大的k(k<j)使得：
pattern[0...k-1] = pattern[j-k...j-1]

实现策略：

使用双指针技术：i遍历模式串，j记录前缀位置

当pattern[i] == pattern[j]时，next[i+1] = j+1

当不相等时，利用已计算的next数组进行回溯

实际应用场景

1. 文本编辑器查找功能

// 在文档中查找关键词
char document[] = "这是一个示例文档，包含一些重要的关键词";
char keyword[] = "关键词";
int position = kmpSearch(document, keyword);

2. DNA序列匹配

// 在DNA序列中查找特定模式
char dna[] = "ATCGATCGATCGATCG";
char pattern[] = "ATCG";
int matchPos = kmpSearch(dna, pattern);

3. 日志文件分析

// 在日志中查找错误信息
char log[] = "系统运行正常，未发现错误，用户登录成功";
char error[] = "错误";
int errorPos = kmpSearch(log, error);

常见面试题

1. 基础概念题

Q1：KMP算法相比暴力匹配的优势是什么？

时间复杂度：KMP为O(m+n)，暴力匹配为O(m*n)

空间复杂度：KMP需要O(m)的额外空间存储next数组

适用场景：适合主串远大于模式串的情况

Q2：Next数组的含义和作用是什么？

含义：记录模式串前缀和后缀的最长公共长度

作用：匹配失败时确定模式串指针的回溯位置，避免重复比较

2. 算法实现题

Q3：手动计算模式串"ABCDABD"的next数组

模式串: A B C D A B D
next: -1 0 0 0 0 1 2

Q4：优化next数组（nextval数组）的实现

void getNextVal(char* pattern, int* nextval) {int len = strlen(pattern);nextval[0] = -1;int i = 0, j = -1;while (i < len - 1) {if (j == -1 || pattern[i] == pattern[j]) {i++; j++;if (pattern[i] != pattern[j]) {nextval[i] = j;} else {nextval[i] = nextval[j];}} else {j = nextval[j];}}
}