模式串的快速匹配算法，kmp算法，尊重前人成果，創造新未來

原創

ps08160000

2018-09-01 08:36

我們知道很多時候會用到一些匹配的算法，比如串的查找什麼的，我不太擅長對數學公式進行推導，所以看到數據結構樹上的一些抽象的函數表達式就頭疼

所以數據結構老是學不好，所以對於KMP快速模式匹配串的算法給出一種通俗的理解，希望對大家有所幫助，或者一種參考，有什麼不對的希望不吝批評

舉個例子：一個查找串 Mstr = a b c a b c a c a b來說吧，當然可以更加複雜

最常見的一種算法就是採用兩個for循環，若全部匹配那麼就打印出位置，否則重頭Mstr來進行匹配，總的最壞的時間就是O((m-n)*n)(就是匹配最後的一個失效)

那麼能否將其減小到O(n)的線性維度呢，分析一下Mstr

0 1 2 3 4 5 6

~~a b c a~~ b c a c a b

........ ........ ..a b c a x..........

通過比較發現如果在位置4失配，我們無需從Mstr開始就進行比較，因爲我們注意到3位置和0位置是一致的，因此可以將失配的位置和1位置進行比較，因爲3位置和0位置一致

由此得出的結論是能否觀察mstr的規律獲得一種較優算法，因此對於書本上的內容我概括如下：從Mstr開始我們找到這麼一種串，例如拿位置3的a來說，依次比較與0處的a的

最大的錯位相等串，比如a[0] = a[3] k= 0 ; a[0]b[1]!=c[2]a[3];a[0]b[1]c[2]!=b[1]c[2]a[3];不得等於0-3因爲沒有意義，由此得出一個規律，從某一個字符找到往前k個字符等於從0開始的往後k個字符，相等則得出基於MStr的回溯信息令生成該函數爲f則當前字符串索引index 有回溯信息f[index] = k-1;如圖6位置往前4個和0開始往後4個得到f[6] = 4-1;

得到所有的f函數的值之後進行匹配就好辦了

失配的時候只需將失配字符與Mstr的最後匹配的串的f值加一，例如7位置失配，那麼只需回溯到Mstr的4位置 = f[6]+1 = 3+1;

下面是實現

f函數獲取

void StringMatch::fGeneration(int *a,const char *str,int length)
{
int j = -1;
a[0] = -1;

//0的f值都是-1，這是爲了便於後面的計算，屬於一個小的手法
   for(int i=1;i<length;i++)
   {
       j=a[i-1];

//獲取上一個f值
while(str[i]!=str[j+1]&&j>=0) j=a[j];//主要是多個相同之後若存在不同的，那麼就是回溯到之前的值

//從第一個開始比較，相同就加一，如果j>=0表示多個相同，那麼就是累加效果
       if(str[i] == str[j+1])
           a[i] = ++j;
       else
           a[i] = -1;

//不等那麼就是-1
}
}

int StringMatch::KMPStringFind(StringMatch &str)
{
   int pos = 0;
   int posm = 0;
   while(pos<str.record.length()&&posm<str.modString.length())
   {
       if(str.record[pos] == str.modString[posm])
       {
           pos++;
           posm++;
       }
       else
       {
           if(posm == 0)
           {
               pos++;
           }
           else
               posm = str.f[posm-1]+1;//基於f函數的回溯
       }
   }
   if(posm<str.modString.length()) return -1;
   else
       return pos-posm;
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

模式串的快速匹配算法，kmp算法，尊重前人成果，創造新未來

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

創新工具：2024年開發者必備的一款表格控件（二）

車牌識別控制檯可快速整合二次開發

Map的相關總結

mysql數據庫事務的實現原理

關於tomcat調用servlet出現解析錯誤或者找不到資源的錯誤

一種特別適用的數字分區函數，分享一下

模式串的快速匹配算法，kmp算法，尊重前人成果，創造新未來

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結