如何實現高效地字符串匹配：KMP算法

KMP算法是一種判斷字符串中是否含有特定子串的優化算法，效率比暴力搜索高出許多，是一個值得學習的算法。

其中，最關鍵的一步就是根據子串部分匹配表來加快搜索速度。

KMP算法步驟

舉例來說，有一個字符串 Str1 = “BBC ABCDAB ABCDABCDABDE”，判斷，裏面是否包含另一個字符串 Str2 = “ABCDABD”？
1.首先，用Str1的第一個字符和Str2的第一個字符去比較，不符合，關鍵詞向後移動一位

2.重複第一步，還是不符合，再後移

3.一直重複，直到Str1有一個字符與Str2的第一個字符符合爲止

4.接着比較字符串和搜索詞的下一個字符，還是符合。

5.遇到Str1有一個字符與Str2對應的字符不符合。

6.這時候，想到的是繼續遍歷Str1的下一個字符，重複第1步。(其實是很不明智的，因爲此時BCD已經比較過了，沒有必要再做重複的工作，一個基本事實是，當空格與D不匹配時，你其實知道前面六個字符是”ABCDAB”。KMP 算法的想法是，設法利用這個已知信息，不要把”搜索位置”移回已經比較過的位置，繼續把它向後移，這樣就提高了效率。)

7.怎麼做到把剛剛重複的步驟省略掉？可以對Str2計算出一張《部分匹配表》，這張表的產生在後面介紹

8.已知空格與D不匹配時，前面六個字符”ABCDAB”是匹配的。查表可知，最後一個匹配字符B對應的”部分匹配值”爲2，因此按照下面的公式算出向後移動的位數：
移動位數 = 已匹配的字符數 - 對應的部分匹配值
因爲 6 - 2 等於4，所以將搜索詞向後移動 4 位。

9.因爲空格與Ｃ不匹配，搜索詞還要繼續往後移。這時，已匹配的字符數爲2（”AB”），對應的”部分匹配值”爲0。所以，移動位數 = 2 - 0，結果爲 2，於是將搜索詞向後移 2 位。

10.因爲空格與A不匹配，繼續後移一位。

11.逐位比較，直到發現C與D不匹配。於是，移動位數 = 6 - 2，繼續將搜索詞向後移動 4 位。

12.逐位比較，直到搜索詞的最後一位，發現完全匹配，於是搜索完成。如果還要繼續搜索（即找出全部匹配），移動位數 = 7 - 0，再將搜索詞向後移動 7 位，這裏就不再重複了。

13.介紹《部分匹配表》怎麼產生的
先介紹前綴，後綴是什麼

“部分匹配值”就是”前綴”和”後綴”的最長的共有元素的長度。以”ABCDABD”爲例，
－”A”的前綴和後綴都爲空集，共有元素的長度爲0；
－”AB”的前綴爲[A]，後綴爲[B]，共有元素的長度爲0；
－”ABC”的前綴爲[A, AB]，後綴爲[BC, C]，共有元素的長度0；
－”ABCD”的前綴爲[A, AB, ABC]，後綴爲[BCD, CD, D]，共有元素的長度爲0；
－”ABCDA”的前綴爲[A, AB, ABC, ABCD]，後綴爲[BCDA, CDA, DA, A]，共有元素爲”A”，長度爲1；
－”ABCDAB”的前綴爲[A, AB, ABC, ABCD, ABCDA]，後綴爲[BCDAB, CDAB, DAB, AB, B]，共有元素爲”AB”，長度爲2；
－”ABCDABD”的前綴爲[A, AB, ABC, ABCD, ABCDA, ABCDAB]，後綴爲[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的長度爲0。

14.”部分匹配”的實質是，有時候，字符串頭部和尾部會有重複。比如，”ABCDAB”之中有兩個”AB”，那麼它的”部分匹配值”就是2（”AB”的長度）。搜索詞移動的時候，第一個”AB”向後移動 4 位（字符串長度-部分匹配值），就可以來到第二個”AB”的位置。

到此KMP算法思想分析完畢!

代碼實現

def kmp(str1, str2):
    """
    KMP算法：判斷str1是否存在子串str2
    :param str1:
    :param str2:
    :return:
    """
    # 子串str2的部分匹配表
    match = [0]
    prefix = []
    for i in range(1, len(str2)):
        prefix.append(str2[:i])  # 補充前綴
        # 判斷前綴與後綴最長的共有元素的長度
        length = 0
        for m in range(1, i+1):
            if str2[m:i+1] in prefix:
                if length < i + 1 - m:
                    length = i + 1 - m
        match.append(length)

    print(match)

    i1 = 0
    while True:
        if i1 > len(str1) - 1:
            break

        substr = ''
        for s1, s2 in zip(str1[i1:], str2):
            if s1 != s2:
                break
            else:
                substr += s1
        if len(substr) == len(str2):
            return i1
        elif substr == '':
            i1 += 1
        else:
            # 這裏時最關鍵的優化：移動位數 = 已匹配的字符數 - 對應的部分匹配值
            i1 += len(substr) - match[len(substr)-1]

    return -1


if __name__ == '__main__':
    print(kmp('BBC ABCDAB ABCDABCDABDE', 'ABCDABD'))

歡迎關注同名公衆號：“我就算餓死也不做程序員”。
交個朋友，一起交流，一起學習，一起進步。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何實現高效地字符串匹配：KMP算法

KMP算法步驟

代碼實現

通過Git安裝和配置自己的GitHub倉庫

如何實現高效地字符串匹配：KMP算法

Lucene源碼(一)：分詞器的底層原理

Lucene源碼(三)：全文檢索的底層原理

spark sql和jdbc將數據寫入mysql的對比

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結