【黑馬計劃-1】KMP及擴展KMP

KMP

核心

玄學 $f a i l$ 數組
$f a i l$ 數組的含義即是某段字符串的最長公共前後綴。
具體來講，設 $T [1 \dots j - 1] = T [i - j \dots i - 1] (j ⩽ i)$ ，那麼 $f a i l [i]$ 爲 $j$ 的最大值。

那麼這個 $f a i l$ 有什麼用呢？見下圖。

匹配時，設當前匹配到 $S$ 的第 $i$ 位， $T$ 的第 $j$ 位，即 $S [i - j + 1 \dots i - 1]$ 與 $T [1 \dots j - 1]$ 已成功匹配。當 $j$ 指針這一位發生失配，意味着 $S [i]! = T [j]$ ，這時根據 $f a i l$ 數組的定義，由於 $T [1 \dots f a i l [j] - 1] = T [j - f a i l [j] \dots j - 1]$ ，因此若將 $j$ 指針指向 $f a i l [j]$ ，我們可以直接跳過對 $T [1 \dots f a i l [j] - 1]$ 的匹配。

複雜度證明

設 $n$ 爲串 $S$ 的長度， $m$ 爲串 $T$ 的長度。
$i$ 指針全程只增，這裏的複雜度爲 $O (n)$ ；
$j$ 指針全程只有兩種跳法： $j \to j + 1$ 或 $j \to f a i l [j]$ 。
對於 $j \to j + 1$ 全程最多跳 $n$ 次。
對於 $j \to f a i l [j]$ ：
在 $i$ 保持不變的情況下， $j$ 跳至下界的極限次數一定不超過 $j$ （根據 $f a i l$ 的定義）。因此設 $f [j]$ 表示 $j$ 這個位置發生失配跳至下界的上限次數， $g [j]$ 爲跳完 $f [j]$ 次之後 $j$ 的位置。而 $j$ 每跳一次， $g [j]$ 一定減小至少 $1$ ， $f [j]$ 隨之減小至少 $1$ ，從而最終跳的次數上界爲 $U = max {f [j]}$ 。由 $f$ 的定義我們知道， $max {f [x]} = n$ ，故最終 $j$ 跳的次數一定不超過 $n$ 。
又由於要單獨對串 $T$ 單獨求一次 $f a i l$ ，複雜度證明同上，爲 $O (m)$ 。
綜上，由於 $i$ 全程迭代 $n$ 次， $j$ 全程迭代不超過 $n$ 次，故時間複雜度爲 $O (n + m)$ 。

擴展KMP

“擴展”

引入 $e x t$ 數組， $e x t [i]$ 表示 $S [i \dots n]$ 與 $T [1 \dots m]$ 的最長公共前綴（ $n$ 爲串 $S$ 的長度， $m$ 爲串 $T$ 的長度）。
考慮如何求 $e x t$ 。

引入輔助工具

設當前需要計算 $e x t [i]$ 的值， $p$ 爲 $e x t [j]$ 最大時 $j$ 的值 $(1 ⩽ j < i)$ ，
就有 $S [p \dots p + e x t [p] - 1] = T [1 \dots e x t [p]]$ ，
於是 $S [i \dots p] = T [e x t [p] - p + i \dots e x t [p]]$ 。
這時求 $e x t$ 就有兩種情況：
1、 $i + f a i l [i] < p + e x t [p]$
由於 $S [i \dots p] = T [e x t [p] - p + i \dots e x t [p]]$ ，
又由 $f a i l$ 的定義知 $S [i \dots i + f a i l [i - p + 1] - 1] = T [1 \dots f a i l [i - p + 1]]$ ， $f a i l [i - p + 1]$ 爲最大匹配長度，故 $e x t [i] = f a i l [i - p + 1]$ 。

2、 $i + f a i l [i] \geq p + e x t [p]$
此處求法與 $f a i l$ 求法幾乎一樣，可參考 $f a i l$ 的求值。

複雜度證明：對於情況1，單次複雜度爲 $O (1)$ ；對於情況2，總複雜度與KMP算法中一致，爲 $O (n + m)$ 。

代碼實現

#include<iostream>
#include<cstdio>
#include<cstring>

using namespace std;

const int LENGTH=1000000;
char S[LENGTH+2],T[LENGTH+2];

namespace KMP{
    int fail[LENGTH+2];
    int cnt[LENGTH+2],ext[LENGTH+2];
    void get_fail(char *t){
        int len=strlen(t+1);
        for(int i=2,j=0;i<=len;++i){
            while(j&&t[i]!=t[j+1])j=fail[j];
            if(t[i]==t[j+1])fail[i]=++j;
        }
    }
    void KMP(char *s,char *t){
        get_fail(t);
        int s_len=strlen(s+1),t_len=strlen(t+1);
        for(int i=1,j=0;i<=s_len;++i){
            while(j&&s[i]!=t[j+1])j=fail[j];
            if(s[i]==t[j+1]){
                cnt[i]=++j;
                if(j==t_len)j=fail[j];
            }
        }
    }
    void ex_KMP(char *s,char *t){
        get_fail(t);
        int s_len=strlen(s+1),t_len=strlen(t+1);
        int p=1;
        while(ext[1]<t_len&&s[ext[1]+1]==t[ext[1]+1])++ext[1];
        for(int i=2;i<=s_len;++i){
            if(i+fail[i-p+1]<p+ext[p])ext[i]=fail[i-p+1];
            else{
                int j=ext[p]+p-i;
                if(j<0)j=0;
                while(i+j<=s_len&&j<t_len&&s[i+j]==t[j+1])++j;
                ext[i]=j;
                p=i;
            }
        }
    }
}

int main(){
    scanf("%s%s",S+1,T+1);
    KMP::KMP(S,T);
    KMP::ex_KMP(S,T);
    int s_len=strlen(S+1),t_len=strlen(T+1);
    printf("Array of fail:\n\t");
    for(int i=1;i<=t_len;++i)printf("%d ",KMP::fail[i]);
    printf("\nMatching position:\n\t");
    for(int i=1;i<=s_len;++i)if(KMP::cnt[i]==t_len)printf("%d ",i-t_len+1);
    printf("\nArray of extend:\n\t");
    for(int i=1;i<=s_len;++i)printf("%d ",KMP::ext[i]);
}

【黑馬計劃-1】KMP及擴展KMP

KMP

核心

複雜度證明

擴展KMP

“擴展”

引入輔助工具

代碼實現

分享5款.NET開源免費的Redis客戶端組件庫

創建 Vue3 項目

golang開發 gorilla websocket的使用

面試官：如果不允許線程池丟棄任務，應該選擇哪個拒絕策略？

記一次 .NET某工業設計軟件崩潰分析

Mac卸載 Node npm，升級 Node

嵌入式汽車電子學習路線

uni.showModel內容換行

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

TS + Webpack 整合 Jest

【BZOJ4836】二元運算

【BZOJ3771】Triple

【AT2307】Tree Game

【網絡流24題】太空飛行計劃

【BZOJ2820】GCD

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結