字符串 --- KMP算法

原創

Nireus_LOVE

2020-02-24 04:14

字符串匹配

舉例來說，有一個字符串”BBC ABCDAB ABCDABCDABDE”，我想知道，裏面是否包含另一個字符串”ABCDABD”？

KMP算法

注意：“*”號之間爲當前比較的字符。
1. 首先，字符串”BBC ABCDAB ABCDABCDABDE”的第一個字符與搜索詞”ABCDABD”的第一個字符，進行比較。因爲B與A不匹配，所以搜索詞後移一位。

    *B*BC ABCDAB ABCDABCDABDE
    *A*BCDABD

因爲B與A不匹配，搜索詞再往後移。
```
B*B*C ABCDAB ABCDABCDABDE
 *A*BCDABD
```
就這樣，直到字符串有一個字符，與搜索詞的第一個字符相同爲止。
```
BBC *A*BCDAB ABCDABCDABDE
    *A*BCDABD
```
接着比較字符串和搜索詞的下一個字符，還是相同。
```
 BBC A*B*CDAB ABCDABCDABDE
     A*B*CDABD
```
直到字符串有一個字符，與搜索詞對應的字符不相同爲止。
```
BBC ABCDAB * *ABCDABCDABDE
     ABCDAB*D*
```
這時，最自然的反應是，將搜索詞整個後移一位，再從頭逐個比較。這樣做雖然可行，但是效率很差，因爲你要把”搜索位置”移到已經比較過的位置，重比一遍。
```
BBC A*B*CDAB ABCDABCDABDE
     *A*BCDABD
```
一個基本事實是，當空格與D不匹配時，你其實知道前面六個字符是”ABCDAB”。KMP算法的想法是，設法利用這個已知信息，不要把”搜索位置”移回已經比較過的位置，繼續把它向後移，這樣就提高了效率。
```
BBC ABCDAB * *ABCDABCDABDE
     ABCDAB*D*
```
怎麼做到這一點呢？可以針對搜索詞，算出一張《部分匹配表》（Partial Match Table）。這張表是如何產生的，後面再介紹，這裏只要會用就可以了。
```
搜索詞        A    B   C   D    A   B   D
部分匹配值     0    0   0   0    1   2   0
```
已知空格與D不匹配時，前面六個字符”ABCDAB”是匹配的。查表可知，最後一個匹配字符B對應的”部分匹配值”爲2，因此按照下面的公式算出向後移動的位數：
　　移動位數 = 已匹配的字符數 - 對應的部分匹配值
　　因爲 6 - 2 等於4，所以將搜索詞向後移動4位
```
BBC ABCDAB * *ABCDABCDABDE
     ABCDAB*D*
```
因爲空格與Ｃ不匹配，搜索詞還要繼續往後移。這時，已匹配的字符數爲2（”AB”），對應的”部分匹配值”爲0。所以，移動位數 = 2 - 0，結果爲 2，於是將搜索詞向後移2位。
```
BBC ABCDAB * *ABCDABCDABDE
         AB*C*DABD
```

因爲空格與A不匹配，繼續後移一位

BBC ABCDAB * *ABCDABCDABDE
           *A*BCDABD

逐位比較，直到發現C與D不匹配。於是，移動位數 = 6 - 2，繼續將搜索詞向後移動4位。
```
BBC ABCDAB ABCDAB*C*DABDE
           ABCDAB*D*
```
逐位比較，直到搜索詞的最後一位，發現完全匹配，於是搜索完成。如果還要繼續搜索（即找出全部匹配），移動位數 = 7 - 0，再將搜索詞向後移動7位，這裏就不再重複了。
```
BBC ABCDAB ABCDABCDAB*D*E
               ABCDAB*D*
```
下面介紹《部分匹配表》是如何產生的。
首先，要了解兩個概念：”前綴”和”後綴”。 “前綴”指除了最後一個字符以外，一個字符串的全部頭部組合；”後綴”指除了第一個字符以外，一個字符串的全部尾部組合。
```
字符串：  bread
前綴：    b, br, bre, brea
後綴：    read, ead, ad, d
```
“部分匹配值”就是”前綴”和”後綴”的最長的共有元素的長度。以”ABCDABD”爲例，
　　－　“A”的前綴和後綴都爲空集，共有元素的長度爲0；
　　－　“AB”的前綴爲[A]，後綴爲[B]，共有元素的長度爲0；
　　－　“ABC”的前綴爲[A, AB]，後綴爲[BC, C]，共有元素的長度0；
　　－　“ABCD”的前綴爲[A, AB, ABC]，後綴爲[BCD, CD, D]，共有元素的長度爲0；
　　－　“ABCDA”的前綴爲[A, AB, ABC, ABCD]，後綴爲[BCDA, CDA, DA, A]，共有元素爲”A”，長度爲1；
　　－　“ABCDAB”的前綴爲[A, AB, ABC, ABCD, ABCDA]，後綴爲[BCDAB, CDAB, DAB, AB, B]，共有元素爲”AB”，長度爲2；
　　－　“ABCDABD”的前綴爲[A, AB, ABC, ABCD, ABCDA, ABCDAB]，後綴爲[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的長度爲0。
```
搜索詞        A   B   C   D    A   B   D
部分匹配值     0   0   0   0    1   2   0
```
“部分匹配”的實質是，有時候，字符串頭部和尾部會有重複。比如，”ABCDAB”之中有兩個”AB”，那麼它的”部分匹配值”就是2（”AB”的長度）。搜索詞移動的時候，第一個”AB”向後移動4位（字符串長度-部分匹配值），就可以來到第二個”AB”的位置。
```
BBC ABCDAB ABCDAB*C*DABDE
           ABCDAB*D*
```

算法時間複雜度爲O(m+n)（其中m爲字符段長度，n爲匹配模式的長度）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

字符串 --- KMP算法

字符串匹配

KMP算法

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

WinForm應用實戰開發指南 - 表格數據錄入問題解析

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

Lucene的數字範圍搜索 (Numeric Range Query)原理

Solr --- 函數查詢（FunctionQuery）

機器學習 -- 隨機森林

Linux --- 清理內存和Cache的方法

推薦系統 --- 實時推薦系統

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結