【算法】字符串匹配之KMP算法

原創

2020-07-03 19:39

對於字符串匹配，暴力法是對每個位置進行逐位匹配，只要有匹配失敗的，就從待匹配串的下個位置開始從頭匹配，這樣的時間複雜度是O（MN）。
KMP算法能解決這樣效率低下匹配，其核心思想是保留已匹配的前綴和，避免重複匹配，時間複雜度是O（M+N）。

舉例來說，有一個字符串"BBC ABCDAB ABCDABCDABDE"，我想知道，裏面是否包含另一個字符串"ABCDABD"？

首先，字符串"BBC ABCDAB ABCDABCDABDE"的第一個字符與搜索詞"ABCDABD"的第一個字符，進行比較。因爲B與A不匹配，所以搜索詞後移一位。
因爲B與A不匹配，搜索詞再往後移。
直到字符串有一個字符，與搜索詞的第一個字符相同爲止。
接着比較字符串和搜索詞的下一個字符，還是相同。
直到字符串有一個字符，與搜索詞對應的字符不相同爲止。
這時，如果使用暴力法，將搜索詞整個後移一位，再從頭逐個比較。這樣做雖然可行，但是效率極低，因爲把"搜索位置"移到已經比較過的位置，重比一遍。
當空格與D不匹配時，其實知道前面六個字符是"ABCDAB"。KMP算法的想法是，設法利用這個已知信息，不要把"搜索位置"移回已經比較過的位置，繼續把它向後移，這樣就提高了效率。
可以針對搜索詞，算出一張《部分匹配表》（Partial Match Table）。
已知空格與D不匹配時，前面六個字符"ABCDAB"是匹配的。查表可知，最後一個匹配字符B對應的"部分匹配值"爲2
因爲空格與Ｃ不匹配，搜索詞還要繼續往後移。這時，已匹配的字符數爲2（“AB”），對應的"部分匹配值"爲0。所以，移動位數 = 2 - 0，結果爲 2，於是將搜索詞向後移2位。
因爲空格與A不匹配，繼續後移一位。
逐位比較，直到發現C與D不匹配。
逐位比較，直到搜索詞的最後一位，發現完全匹配，於是搜索完成。

"部分匹配值"就是"前綴"和"後綴"的最長的共有元素的長度。

以"ABCDABD"爲例，

"A"的前綴和後綴都爲空集，共有元素的長度爲0；
"AB"的前綴爲[A]，後綴爲[B]，共有元素的長度爲0；
"ABC"的前綴爲[A, AB]，後綴爲[BC, C]，共有元素的長度0；
"ABCD"的前綴爲[A, AB, ABC]，後綴爲[BCD, CD, D]，共有元素的長度爲0；
“ABCDA"的前綴爲[A, AB, ABC, ABCD]，後綴爲[BCDA, CDA, DA, A]，共有元素爲"A”，長度爲1；
“ABCDAB"的前綴爲[A, AB, ABC, ABCD, ABCDA]，後綴爲[BCDAB, CDAB, DAB, AB, B]，共有元素爲"AB”，長度爲2；
"ABCDABD"的前綴爲[A, AB, ABC, ABCD, ABCDA, ABCDAB]，後綴爲[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的長度爲0。

KMP算法的Java實現

class Main {
    public int KMP(String s1, String s2){
        if(s2.length()>s1.length() || s2.length()==0) return -1;
        int i=0,j=0;
        int[] next = getNextArray(s2);
        while(i<s1.length()){
            if(s1.charAt(i)==s2.charAt(j)){
                i++;
                j++;
                if(j==s2.length()) return i-j;
            }else{
                if(next[j]==-1) i++;
                else j=next[j];
            }
        }
        return -1;
    }
    public int[] getNextArray(String s){
        int[] next = new int[s.length()];
        next[0]=-1;
        for(int i=1;i<s.length();i++){
            int j=next[i-1];
            while(j!=-1){
                if(s.charAt(i-1) == s.charAt(j)){
                    next[i]=++j;
                    break;
                }else j=next[j];
            }
        }
        return next;
    }

}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【算法】字符串匹配之KMP算法

EXCEL中下拉菜單中添加新選項或者刪除選項

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

Git使用經驗總結5-修改提交信息

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Git使用經驗總結4-撤回上一次本地提交

Java中止線程的方式

壓榨數據庫的真實處理速度

[轉帖]Oracle Exadata 學習筆記之核心特性Part1

【算法】字符串匹配之KMP算法

【算法題】滑動窗口最大值

【算法】全排列算法

【高併發】秒殺業務場景詳解

【算法題】股票買賣問題解法詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結