BM算法

BM是一種快於KMP的字符串匹配算法,屬於啓發式搜索

#include<bits/stdc++.h>

using namespace std;

int Dist(char* t, char ch)
{
	int len = strlen(t), i = len - 1;
	if (ch == t[i])return len;
	i--;
	while (i >= 0)
	{
		if (ch == t[i])return len - 1 - i;
		else i--;
	}
	return len;
}
void BM(char* s, char* t)
{
	int n = strlen(s), m = strlen(t), i = m - 1, j = i;
	while (j >= 0 && i < n)
	{
		if (s[i] == t[j])
		{
			i--;
			j--;
		}
		else
		{
			i += Dist(t, s[i]);
			j = m - 1;
		}
	}
	if (j < 0)cout << "找到了,位置在:" << i + 1;
	else cout << "沒找到";
}
int main(void)
{
	char p1[] = "substring searching algorithm search";
	char p2[] = "algorithm";
	BM(p1, p2);
}

BM算法屬於後綴匹配算法,顧名思義就是從模式串的後綴開始匹配。其核心思想是通過壞字符好後綴來決定模式串後移的距離,移動距離爲max(壞字符,好後綴)。

什麼是壞字符,什麼是好後綴

在這裏插入圖片描述
從模式串T的後綴開始,遇到的串S中第一個不匹配的字符,該字符稱爲壞字符

模式串T和S所共有的最長匹配後綴稱爲好後綴

壞字符規則

情況1:

S:ZXWS007
T:0 0 7

從模式串T的後綴開始匹配,可見7!=W,且W不存在於模式串T中,則直接把模式串T移動
3-(-1)=4,即直接移動到壞字符的後一位。

S:ZXWS007
T:_____007

情況2:

S:ZXWS007
T:S0 0 7

從模式串T的後綴開始匹配,可見7!=S,但S存在於模式串T中,則直接使模式串T中的S和串S中的S字符對齊,
向後移動距離=T.Length()-1-S在模式串T中最右位置
即3-0=3,模式串T向後移動3位。

S:ZXWS007
T:_____S007

好後綴規則

情況1:

S:ZXWS007
T:Z007

從模式串T的後綴開始匹配,此時模式串T中存在後綴與子串S匹配的子串:007,
移動距離=好後綴在模式串中的位置-好後綴在模式串中上一次出現的位置
4-0=4。

例子

在這裏插入圖片描述
步驟1:根據壞字符規則,模式串T移動6-(-1)=7。

移動後:
在這裏插入圖片描述
步驟2:根據壞字符規則,模式串T移動6-4=2。

移動後:
在這裏插入圖片描述
步驟3:根據好後綴規則,模式串T移動6-0=6。此步的壞字符只能移動2-(-1)=3位。故選擇較大的好後綴規則。

移動後:
在這裏插入圖片描述
步驟4:根據壞字符規則,模式串T移動6-4=2。

匹配完畢:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章