必懂kmp

必懂kmp

原創

123archu

2019-02-27 13:04

看毛片算法其實並不難，但是很多人就是看完書還是不懂，覺得難以理解。。。

覺得很多都講得都長篇大論，沒能讓人很清晰的接觸到核心，下面力求精煉的講清楚怎麼看毛片

基本思想如圖：

我們看匹配的過程

T_i-j......T_i.........

P₀.......P_j...

（留意是匹配了j個字符，匹配到第j+1個字符）

當匹配到T_i和P_j時，T_i != P_j，那麼就要移動模式串了，而我們這時知道的信息有：

T_i-j......T_i-1 == P₀.......P_j-1 （j個字符相等） -------------［1］

我們設下一個要和Ti進行比較的字符是Pk（就是說移動了j-k個位），那麼前提是

P₀......P_k-1 == T_i-k....T_i-1 （k個字符相等）-------------［2］

滿足這個條件的k可能不止一個，我們肯定要選擇最大的k，這樣纔不會漏掉可能的情況

然後聯立［1］［2］兩條式子，有：

P₀......P_k-1 == P_j-k.......P_j-1 （k個字符相等）-------------［3］

由［3］可以看出，前k個字符和後k個字符相等，就是說，我們可以從模式串本身去得到這些移動的信息，而這個信息就是：

對於P_j失配時，在字串P₀....P_j-1中，有最大的k，使前k個字符和後k個字符相等，k<=j-1，P_k!=P_j

我們設k=next[j]，即next[j]代表P₀....P_j-1中的最大的k（P_j失配時，下一個應該和T_i比較的是P_next[j]）

明顯，我們有基本情況：

j==0
next[j] = -1
j==1 //這個情況其實是用下邊的規則統一遞推出來，寫上去只是容易理解清晰一點
P_j != P_j-1 next[j] = 0
P_j == P_j-1 next[j] = -1

然後就是遞推的關係，這個關係就是看毛片的難點所在，因爲這個遞推關係不是單純和其他的next值有關，而是要用一個變量，記錄P₀....P_j-1中最大的k，使前k個字符和後k個字符相等，k<=j-1，且P_k!=P_j，因爲最後的這個條件，所以我們不能直接用之前的next去推導。設那個記錄的變量是i，那麼我們有如下的關係：

P_j+1==P_i+1 ++i , ++j; //++i是更新相等的前後綴的長度
next[j] = next[i];
P_j+1!=P_i+1 ++i,++j;
next[j] = i;
do
i=next[i]; //保證了P_next[i] != P_i
while(i>=0 && P_j != P_i);

第一條規則，因爲條件，明顯就有next[j]=next[i]

第二條規則，也是因爲條件，明顯有next[j]=i，難點在於更新i的值

結合這些條件，我們就可以寫出球next數組的函數了

void getnext(char  *P,int  *next)
{
    int len = strlen(P),i=-1,j=0;
    next[0]  =  -1; 

    while(j<len)  {
        ++j;++i;
        next[j]  = i;
        if(P[i]==P[j])  next[j]  =  next[i];
        while(i>=0  && P[j]!=P[i]) i =  next[i];
    }   
}

next數組都搞定了，搜索沒什麼好說了的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

本地事務的理論依據

你不知道的內存管理虛擬內存組織虛擬地址（VA）和物理地址（PA）的轉換物理內存組織

chapter5、6 golang的函數與方法

後臺面試題庫

HyperLogLog原理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結