字符串匹配算法-KMP算法

本文轉載自： http://www.cnblogs.com/maybe2030/p/4633153.html#top

[Algorithm] 字符串匹配算法——KMP算法

1 字符串匹配

　　字符串匹配是計算機的基本任務之一。

　　字符串匹配是什麼？舉例來說，有一個字符串”BBC ABCDAB ABCDABCDABDE”，我想知道，裏面是否包含另一個字符串”ABCDABD”？

　　許多算法可以完成這個任務，Knuth-Morris-Pratt算法（簡稱KMP）是最常用的之一。它以三個發明者命名，起頭的那個K就是著名科學家Donald Knuth（《計算機程序設計藝術》的作者）。

2 KMP算法

　　這個算法不太容易理解，網上有很多解釋，但讀起來都很費勁。直到讀到Jake Boxer的文章，我才真正理解這種算法。下面，我用自己的語言，試圖寫一篇比較好懂的KMP算法解釋。

　　首先，字符串”BBC ABCDAB ABCDABCDABDE”的第一個字符與搜索詞”ABCDABD”的第一個字符，進行比較。因爲B與A不匹配，所以搜索詞後移一位。

　　因爲B與A不匹配，搜索詞再往後移。

　　就這樣，直到字符串有一個字符，與搜索詞的第一個字符相同爲止。

　　接着比較字符串和搜索詞的下一個字符，還是相同。

　　直到字符串有一個字符，與搜索詞對應的字符不相同爲止。

　　這時，最自然的反應是，將搜索詞整個後移一位，再從頭逐個比較。這樣做雖然可行，但是效率很差，因爲你要把”搜索位置”移到已經比較過的位置，重比一遍。

　　一個基本事實是，當空格與D不匹配時，你其實知道前面六個字符是”ABCDAB”。KMP算法的想法是，設法利用這個已知信息，不要把”搜索位置”移回已經比較過的位置，繼續把它向後移，這樣就提高了效率。

　　怎麼做到這一點呢？可以針對搜索詞，算出一張《部分匹配表》（Partial Match Table）。這張表是如何產生的，後面再介紹，這裏只要會用就可以了。

　　已知空格與D不匹配時，前面六個字符”ABCDAB”是匹配的。查表可知，最後一個匹配字符B對應的”部分匹配值”爲2，因此按照下面的公式算出向後移動的位數：

　　移動位數 = 已匹配的字符數 - 對應的部分匹配值

　　因爲 6 - 2 等於4，所以將搜索詞向後移動4位。

　　10.

　　因爲空格與Ｃ不匹配，搜索詞還要繼續往後移。這時，已匹配的字符數爲2（”AB”），對應的”部分匹配值”爲0。所以，移動位數 = 2 - 0，結果爲 2，於是將搜索詞向後移2位。

　　11.

　　因爲空格與A不匹配，繼續後移一位。

　　12.

　　逐位比較，直到發現C與D不匹配。於是，移動位數 = 6 - 2，繼續將搜索詞向後移動4位。

　　13.

　　逐位比較，直到搜索詞的最後一位，發現完全匹配，於是搜索完成。如果還要繼續搜索（即找出全部匹配），移動位數 = 7 - 0，再將搜索詞向後移動7位，這裏就不再重複了。

　　14.

　　下面介紹《部分匹配表》是如何產生的。

　　首先，要了解兩個概念：”前綴”和”後綴”。 “前綴”指除了最後一個字符以外，一個字符串的全部頭部組合；”後綴”指除了第一個字符以外，一個字符串的全部尾部組合。

　　15.

　　“部分匹配值”就是”前綴”和”後綴”的最長的共有元素的長度。以”ABCDABD”爲例，

　　－　“A”的前綴和後綴都爲空集，共有元素的長度爲0；

　　－　“AB”的前綴爲[A]，後綴爲[B]，共有元素的長度爲0；

　　－　“ABC”的前綴爲[A, AB]，後綴爲[BC, C]，共有元素的長度0；

　　－　“ABCD”的前綴爲[A, AB, ABC]，後綴爲[BCD, CD, D]，共有元素的長度爲0；

　　－　“ABCDA”的前綴爲[A, AB, ABC, ABCD]，後綴爲[BCDA, CDA, DA, A]，共有元素爲”A”，長度爲1；

　　－　“ABCDAB”的前綴爲[A, AB, ABC, ABCD, ABCDA]，後綴爲[BCDAB, CDAB, DAB, AB, B]，共有元素爲”AB”，長度爲2；

　　－　“ABCDABD”的前綴爲[A, AB, ABC, ABCD, ABCDA, ABCDAB]，後綴爲[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的長度爲0。

　　16.

　　“部分匹配”的實質是，有時候，字符串頭部和尾部會有重複。比如，”ABCDAB”之中有兩個”AB”，那麼它的”部分匹配值”就是2（”AB”的長度）。搜索詞移動的時候，第一個”AB”向後移動4位（字符串長度-部分匹配值），就可以來到第二個”AB”的位置。

　　算法時間複雜度爲O(m+n)（其中m爲字符段長度，n爲匹配模式的長度）。

3 算法實現

void getNext(const std::string &p, std::vector<int> &next)
{
    next.resize(p.size());
    next[0] = -1;

    int i = 0, j = -1;

    while (i != p.size() - 1)
    {
        //這裏注意，i==0的時候實際上求的是next[1]的值，以此類推
        if (j == -1 || p[i] == p[j])
        {
            ++i;
            ++j;
            next[i] = j;
        }
        else
        {
            j = next[j];
        }
    }
}

int kmp(const std::string& s, const std::string& p, const int sIndex = 0)
{
    std::vector<int>next(p.size());
    getNext(p, next);//獲取next數組，保存到vector中

    int i = sIndex, j = 0;
    while(i != s.length() && j != p.length())
    {
        if (j == -1 || s[i] == p[j])
        {
            ++i;
            ++j;
        }
        else
        {
            j = next[j];
        }
    }

    return j == p.length() ? i - j: -1;
}

　　相關內容：kmp算法實現原理及簡單示例。

本文轉載自：
http://www.cnblogs.com/maybe2030/p/4633153.html#top

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

字符串匹配算法-KMP算法

[Algorithm] 字符串匹配算法——KMP算法

1 字符串匹配

2 KMP算法

3 算法實現

MySQL的常見數據類型

Java 8 的新特性

MySQL基礎和數據庫的創建命令,約束

java開發之服務器端開發

java 的JVM內存詳解和內存溢出異常

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結