假設現在我們面臨這樣一個問題:有一個文本串S,和一個模式串P,現在要查找P在S中的位置,怎麼查找呢?
我們可以利用雙指針的方式進行匹配但這時一個非常消耗時間的問題出來了,一旦失配應該怎麼匹配,這時今天的主角就要登場啦,我們可以設一個數組用於記錄在失配點之前有多少個點是可以直接繼續匹配的,比如說對“123121”進行匹配“12312312”當匹配到第二個3的時候適配這時的失配點的之前123是可以用的,不妨我們可以這樣想能夠繼續用的部分即是其開始匹配的地方在後方重複的地方的即可以看成其前綴和後綴,那麼失配時,模式串向右移動的位數爲:已匹配字符數 - 失配字符的上一位字符所對應的最大前綴後綴相等長度值,於是我們可以定義一個next數組。
next 數組各值的含義:代表當前字符之前的字符串中,有多大長度的相同前綴後綴。例如如果next [j] = k,代表j 之前的字符串中有最大長度爲k 的相同前綴後綴。
故KMP的主要流程是:
假設現在文本串S匹配到 i 位置,模式串P匹配到 j 位置
如果j = -1,或者當前字符匹配成功(即S[i] == P[j]),都令i++,j++,繼續匹配下一個字符;
如果j != -1,且當前字符匹配失敗(即S[i] != P[j]),則令 i 不變,j = next[j]。此舉意味着失配時,模式串P相對於文本串S向右移動了j - next [j] 位。
換言之,當匹配失敗時,模式串向右移動的位數爲:失配字符所在位置 - 失配字符對應的next 值(next 數組的求解會在下文的3.3.3節中詳細闡述),即移動的實際位數爲:j - next[j],且此值大於等於1。
KMP模板:
#include<stdio.h>
#include<algorithm>
#include<cstring>
#include<cmath>
#include<iostream>
#define N 100005
using namespace std;
int n,m;
int a[N];
int b[N];
int i,j;
///找k的位置使b是a的子串
int next[N];
void makenext(int *str, int *next, int len)
{
next[0] = -1;//next[0]初始化爲-1,-1表示不存在相同的最大前綴和最大後綴
int k = -1;//k初始化爲-1
for (int q = 1; q <= len-1; q++)
{
while (k > -1 && str[k + 1] != str[q])//如果下一個不同,那麼k就變成next[k],注意next[k]是小於k的,無論k取任何值。
{
k = next[k];//往前回溯
}
if (str[k + 1] == str[q])//如果相同,k++
{
k = k + 1;
}
next[q] = k;//這個是把算的k的值(就是相同的最大前綴和最大後綴長)賦給next[q]
}
}
int KMP(int *str, int slen, int *ptr, int plen)
{
int *next = new int[plen];
makenext(ptr, next, plen);//計算next數組
for(int i=0;i<=n;i++)
{
printf("%d ",next[i]);
}
printf("\n");
int k = -1;
for (int i = 0; i < slen; i++)
{
while (k >-1&& ptr[k + 1] != str[i])//ptr和str不匹配,且k>-1(表示ptr和str有部分匹配)
k = next[k];//往前回溯
if (ptr[k + 1] == str[i])
k = k + 1;
if (k == plen-1)//說明k移動到ptr的最末端
{
//cout << "在位置" << i-plen+1<< endl;
//k = -1;//重新初始化,尋找下一個
//i = i - plen + 1;//i定位到該位置,外層for循環i++可以繼續找下一個(這裏默認存在兩個匹配字符串可以部分重疊)
return i-plen+1;//返回相應的位置
}
}
return -1;
}
int main()
{
int t;
scanf("%d",&t);
while(t--)
{
scanf("%d%d",&n,&m);
memset(a,0,sizeof(a));
memset(b,0,sizeof(b));
memset(next,0,sizeof(next));
for(int i=1;i<=n;i++)
{
scanf("%d",&a[i]);
}
for(int j=1;j<=m;j++)
{
scanf("%d",&b[j]);
}
int ans=KMP(a,n,b,m);
printf("%d\n",ans);
}
}