当前位置：首页 > news >正文

前缀函数的运用

news 2025/8/16 18:17:12

前缀函数的运用

KMP

在字符串中查找子串，本质是对前缀函数的运用。

例题1

给定一个文本串 $t$ ，和一个模板串 $s$ ，找出 $s$ 在 $t$ 中出现的所有位置。

题解

构造一个字符串 $h=s+#+th=s+\#+t$ ， $h$ 由 三个部分 组成，第一个部分是模板串 $s$ ，第二个部分是一个在 $s$ 和 $t$ 中都不会出现 的字符 $#\#$ ，第三部分是文本串 $t$ 。

可以对 $h$ 跑一遍前缀函数，然后所有前缀函数大小为 s.size() 的位置就是 $s$ 完整在文本串中出现且 $s$ 的 最后一个字符 所处的位置。

由于 $h$ 有偏移，所以得到的位置应该减去 2*s.size()-1。

#include <bits/stdc++.h>
using namespace std;
//#pragma GCC optimize(2)
#define int long long
#define endl '\n'
#define PII pair<int,int>
#define INF 1e18
const int N = 1e6 + 7;struct PrifixFunction {int n;string s;vector <int> p;PrifixFunction (int _n, string _s) : s(_s), n(_n), p(_n + 1){}void getPrifixFunction () {p[0] = 0;for (int i = 1; i < n; i++) {int j = p[i - 1];while (j && s[j] != s[i]) {j = p[j - 1];}if (s[j] == s[i]) j ++;p[i] = j;}}
};void solve () {string t, s;cin >> t >> s;string h = s + "#" + t;PrifixFunction pp(h.size(), h);pp.getPrifixFunction();vector <int> ans;for (int i = 0; i < h.size(); i++) {if (pp.p[i] == s.size()) ans.push_back(i - 2*s.size() + 1);}for (auto i : ans) cout << i << endl;
}
signed main() {solve();
}

字符串的周期

对于字符串 $s$ ，若 $s$ 存在周期 $T(1≤T≤∣s∣)T(1\le T\le |s|)$ ，则对于所有的 $i∈[0,∣s∣−T−1]i\in[0,|s|-T-1]$ 都有 $s [i] = s [i + T]$ 。

不难发现，若存在一个子串 $r$ ，既是 $s$ 的一个 真前缀，又是 $s$ 的一个 真后缀，那么 $s$ 一定有周期 $t = ∣ s ∣ - ∣ r ∣$ 。

因为 $i+t≤∣s∣−1i+t\le|s|-1$ ，当 $i$ 取 最大值 的时候，该不等式取等号，而 $i$ 至多只能到 $∣ r ∣ - 1$ ，所以 $t = ∣ s ∣ - ∣ r ∣$ 。

又因为这样的 $r$ 的长度最大不超过 $π(∣s∣−1)\pi(|s|-1)$ ，所以我们就说 $s$ 的最小周期是 $π(∣s∣−1)\pi(|s|-1)$ 。

统计每个前缀的出现次数

例题1

给定一个长度为 $n$ 的字符串 $s$ ，统计 $s$ 的每个前缀在 $s$ 中的出现次数。

题解

若存在一个子串 $r$ ，既是 $s$ 的一个 真前缀，又是 $s$ 的一个 真后缀，那么我们就称 $r$ 是 $s$ 的一个 $b or d er$ 。

设 $x$ 是 $s$ 的真前缀，如果 $x$ 在 $s$ 中出现了一次以上，那么必然能截取出一个子串 $t$ ，使得 $x$ 是 $t$ 的 $b or d er$ 。

所以我们对于每个子串 $s [0... i]$ ，求出其所有的 $b or d er$ 并进行累加即可。

如果一个长度为 $l e n$ 的 $b or d er$ 出现了 $x$ 次，那么不管子串多长 $p [l e n - 1]$ 都是仅次于 $l e n$ 的 $b or d er$ 。

所以一个长度为 $l e n$ 的 $b or d er$ 的出现次数，也代表了一部分 $p [l e n - 1]$ 的贡献。

我们先记录每个子串最大长度的 $b or d er$ 出现次数，然后倒序累加就行了。

随后别忘记加上前缀自身出现的一次。

vector<int> p(n);
vector<int> cnt(n + 1, 0); // cnt[i] 表示长度为 i 的前缀出现次数// 1. 计算前缀函数
for (int i = 1; i < n; i++) {int j = p[i - 1];while (j && s[j] != s[i]) j = p[j - 1];if (s[j] == s[i]) j++;p[i] = j;
}// 2. 统计每个长度的出现次数（不含自己作为前缀的那一次）
for (int i = 0; i < n; i++) cnt[p[i]]++;// 3. 把出现次数沿着 border 链上传递
for (int len = n; len > 0; len--) {cnt[p[len - 1]] += cnt[len];
}// 4. 每个前缀本身出现一次
for (int i = 1; i <= n; i++) cnt[i]++;