我們知道很多時候會用到一些匹配的算法,比如串的查找什麼的,我不太擅長對數學公式進行推導,所以看到數據結構樹上的一些抽象的函數表達式就頭疼
所以數據結構老是學不好,所以對於KMP快速模式匹配串的算法給出一種通俗的理解,希望對大家有所幫助,或者一種參考,有什麼不對的希望不吝批評
舉個例子:一個查找串 Mstr = a b c a b c a c a b來說吧,當然可以更加複雜
最常見的一種算法就是採用兩個for循環,若全部匹配那麼就打印出位置,否則重頭Mstr來進行匹配,總的最壞的時間就是O((m-n)*n)(就是匹配最後的一個失效)
那麼能否將其減小到O(n)的線性維度呢,分析一下Mstr
0 1 2 3 4 5 6
a b c
a b c a c a b
........ ........ ..a b c a x..........
通過比較發現如果在位置4失配,我們無需從Mstr開始就進行比較,因爲我們注意到3位置和0位置是一致的,因此可以將失配的位置和1位置進行比較,因爲3位置和0位置一致
由此得出的結論是能否觀察mstr的規律獲得一種較優算法,因此對於書本上的內容我概括如下:從Mstr開始我們找到這麼一種串,例如拿位置3的a來說,依次比較與0處的a的
最大的錯位相等串,比如a[0] = a[3] k= 0 ; a[0]b[1]!=c[2]a[3];a[0]b[1]c[2]!=b[1]c[2]a[3];不得等於0-3因爲沒有意義,由此得出一個規律,從某一個字符找到往前k個字符等於從0開始的往後k個字符,相等則得出基於MStr的回溯信息令生成該函數爲f則當前字符串索引index 有回溯信息f[index] = k-1;如圖6位置往前4個和0開始往後4個得到f[6] = 4-1;
得到所有的f函數的值之後進行匹配就好辦了
失配的時候只需將失配字符與Mstr的最後匹配的串的f值加一,例如7位置失配,那麼只需回溯到Mstr的4位置 = f[6]+1 = 3+1;
下面是實現
f函數獲取
void StringMatch::fGeneration(int *a,const char *str,int length)
{
int j = -1;
a[0] = -1;
//0的f值都是-1,這是爲了便於後面的計算,屬於一個小的手法
for(int i=1;i<length;i++)
{
j=a[i-1];
//獲取上一個f值
while(str[i]!=str[j+1]&&j>=0) j=a[j];//主要是多個相同之後若存在不同的,那麼就是回溯到之前的值
//從第一個開始比較,相同就加一,如果j>=0表示多個相同,那麼就是累加效果
if(str[i] == str[j+1])
a[i] = ++j;
else
a[i] = -1;
//不等那麼就是-1
}
}
int StringMatch::KMPStringFind(StringMatch &str)
{
int pos = 0;
int posm = 0;
while(pos<str.record.length()&&posm<str.modString.length())
{
if(str.record[pos] == str.modString[posm])
{
pos++;
posm++;
}
else
{
if(posm == 0)
{
pos++;
}
else
posm = str.f[posm-1]+1;//基於f函數的回溯
}
}
if(posm<str.modString.length()) return -1;
else
return pos-posm;
}