BM是一種快於KMP的字符串匹配算法,屬於啓發式搜索
#include<bits/stdc++.h>
using namespace std;
int Dist(char* t, char ch)
{
int len = strlen(t), i = len - 1;
if (ch == t[i])return len;
i--;
while (i >= 0)
{
if (ch == t[i])return len - 1 - i;
else i--;
}
return len;
}
void BM(char* s, char* t)
{
int n = strlen(s), m = strlen(t), i = m - 1, j = i;
while (j >= 0 && i < n)
{
if (s[i] == t[j])
{
i--;
j--;
}
else
{
i += Dist(t, s[i]);
j = m - 1;
}
}
if (j < 0)cout << "找到了,位置在:" << i + 1;
else cout << "沒找到";
}
int main(void)
{
char p1[] = "substring searching algorithm search";
char p2[] = "algorithm";
BM(p1, p2);
}
BM算法屬於後綴匹配算法,顧名思義就是從模式串的後綴開始匹配。其核心思想是通過壞字符和好後綴來決定模式串後移的距離,移動距離爲max(壞字符,好後綴)。
什麼是壞字符,什麼是好後綴
從模式串T的後綴開始,遇到的串S中第一個不匹配的字符,該字符稱爲壞字符。
模式串T和S所共有的最長匹配後綴稱爲好後綴。
壞字符規則
情況1:
S:ZXWS007
T:0 0 7
從模式串T的後綴開始匹配,可見7!=W,且W不存在於模式串T中,則直接把模式串T移動
3-(-1)=4,即直接移動到壞字符的後一位。
S:ZXWS007
T:_____007
情況2:
S:ZXWS007
T:S0 0 7
從模式串T的後綴開始匹配,可見7!=S,但S存在於模式串T中,則直接使模式串T中的S和串S中的S字符對齊,
向後移動距離=T.Length()-1-S在模式串T中最右位置
即3-0=3,模式串T向後移動3位。
S:ZXWS007
T:_____S007
好後綴規則
情況1:
S:ZXWS007
T:Z007
從模式串T的後綴開始匹配,此時模式串T中存在後綴與子串S匹配的子串:007,
移動距離=好後綴在模式串中的位置-好後綴在模式串中上一次出現的位置
4-0=4。
例子
步驟1:根據壞字符規則,模式串T移動6-(-1)=7。
移動後:
步驟2:根據壞字符規則,模式串T移動6-4=2。
移動後:
步驟3:根據好後綴規則,模式串T移動6-0=6。此步的壞字符只能移動2-(-1)=3位。故選擇較大的好後綴規則。
移動後:
步驟4:根據壞字符規則,模式串T移動6-4=2。
匹配完畢: