用人话讲一讲KMP是怎么回事

原創

2020-04-11 12:31

KMP（看毛片）算法，是从一堆字符串里查找相应字符串，该算法的核心是对要查找的字符串进行拆分，算出相应的结果数据，然后进行数据匹配的过程。

这个算法的精髓就是首先查出他的最大重复字符窜（重复部分的字符窜必须是从开头部分算起，比如abcbc，他的最大重复项为0，而abcac，最大距离间隔就是3）的距离间隔m，然后在查找的时候，查看该字符窜与目标字符窜命中部分的长度，如果命中部分的长度>m，则如果没有命中，就移动m个位，如果命中部分<m,那么就移动命中部分长度的间隔,但是这里移动有一个下线条件那就是1

首先举个例子：

从BBC ABCDAB ABCDABCDABDE字符串里查找ABCDABD。

第一步，拆分ABCDABD，看看它里面重复元素的距离间隔是多少，很明显，他的重复元素距离间隔是【AB】CD【AB】D，第一个AB到下一个重复的AB间隔为4

那么现在KMP算法执行的流程是

第一次匹配时，我们发现能匹配上的数据为0因此移动1次,因此从0开始

第二步：重复第一步，我们发现，仍然匹配不了，因此在移动一次，从0开始

第三步：重复第一步，我们发现，仍然匹配不了，因此在移动一次，从0开始

第四次匹配时，我们发现匹配命中为6位，匹配命中的部分，重复值的间隔为4，因此，我们可以直接移动4次，但是从2的位置，即C的位置开始比较

第五次匹配时，我们发现命中的部分为2，但是重复值间隔为0，因此接下来要移动2步。从

第六次匹配时，我们发现名部分为6，然后重复值间隔为4，因此，接下来我们需要移动4步

第七次匹配时，全部命中。

以上原理就是这么简单，但是如何用代码实现呢，这里就来了。

但是这里面有一个问题，那就是解决重合部分的回溯问题，这个问题是啥意思呢，用上面的例子，第四步和第五步讲解

第四步移动4得到第五步，但是在第五步，我们发现了一个问题，那就是第五部的开头要搜索的字符窜AB，其实再第四步就比对过了，这时候按照道理，开始从开头的AB后面的C比较就可以了。

如何让它从C开始呢？

假设我们不考虑被寻找的字符窜是什么，我们只关心要查找的字符窜，以ABCDABD为例，所有可能移动的步数和结果如下：

从这个表里我们可以发现，如果在ABCDABD字符串里，头五个字母编号，我们会发现，如果哪个不符合，就将A标点移动到不符合的位置，但到了第二个B那里，情况变了，不是将A移动到第二个B处，而是第二个A处，而从上面可以总结一个规律，那就是如果用数组表示这7个字符，则会生成如下NEXT数组表：

NEXT数组生成

从这里我们发现这个一个规律，就是字母代表的下标那一行的数字，等于是前面重复数据的个数，而按照这个规律推出来的就是所谓的NEXT数组的表示。

而下面的nextval只不过是三次重复数据出现后的下标表示法，是从next里推出来的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

剑指Offer-在排序数组中查找数字 I

46.在排序數組中查找數字 I 統計一個數字在排序數組中出現的次數。示例 1: 輸入: nums = [5,7,7,8,8,10], target = 8 輸出: 2 示例 2: 輸入: nums = [5,7,7,8,8,

2020-07-08 12:20:23

LeetCode-452. 用最少数量的箭引爆气球

LeetCode-452. 用最少數量的箭引爆氣球在二維空間中有許多球形的氣球。對於每個氣球，提供的輸入是水平方向上，氣球直徑的開始和結束座標。由於它是水平的，所以y座標並不重要，因此只要知道開始和結束的x座標就足夠了。開始座標

2020-07-08 12:20:23

LeetCode-680. 验证回文字符串

LeetCode-680. 驗證迴文字符串給定一個非空字符串 s，最多刪除一個字符。判斷是否能成爲迴文字符串。示例 1: 輸入: "aba" 輸出: True 示例 2: 輸入: "abca" 輸出: True 解釋: 你可

2020-07-08 12:20:23

基本数据结构——线性结构（列表/无序表）

1.什麼是列表（List）? 一個數據項按照相對位置存放的數據集。特別的，被稱爲“無序表(unordered list)”，其中數據項只按照存放位置來索引，如第1個、第2個…、最後一個等。如一個考試分數的集合“54,26,93,

weixin_38324954

2020-07-08 11:06:53

算法复杂度评价指标（大o表示法）

大O表示法（1）常見的大o數量級函數（2）其他算法複雜度表示法基本操作數量函數T(n)的精確值並不是特別重要，重要的是Tn(n)中起決定性因素的主導部分。用動態的眼光看，就是當問題規模增大的時候，T(n)中的一些部分會蓋過其他部

weixin_38324954

2020-07-08 11:06:52

“变位词”判断问题及算法复杂度

解法1 逐字檢查解法思路：將詞1中的字符逐個到詞2中檢查是否存在，存在就打勾標記（防止重複檢查）。如果每個字符都能找到，則兩個詞是變位詞。只要有一個字符找不到，就不是變位詞。實現打勾標記：將詞2對應字符設爲None,由於

weixin_38324954

2020-07-08 11:06:52

基本数据结构——线性结构（有序表）

1. 什麼是有序表（OrderedList）有序表是一種數據項依照其某可比性質（如整數大小、字母表先後）來決定在列表中的位置。越“小”的數據項越靠近列表的頭，越靠“前”。 2.抽象數據類型有序表（OrderedList）定義的

weixin_38324954

2020-07-08 11:06:52

python两种内置数据类型（列表list和字典dict）上各个操作的大O数量级

python兩種內置數據類型（列表list和字典dict）上各個操作的大O數量級 1.對比list和dict操作 2.list列表數據類型常用操作性能 (1)按索引取值和賦值（v=a[i],a[i]=v）由於列表的隨機訪問特性

weixin_38324954

2020-07-08 11:06:52

基本数据结构——线性结构（栈）

1.什麼是線性結構線性結構是一種有序數據項的集合，其中每個數據項都有唯一的前驅和後繼（除了第一個沒有前驅，最後一個沒有後繼）。新的數據項加入到數據集中時，只會加入到原有某個數據項之前或之後。具有這種性質的數據集，就稱爲線性結構。

weixin_38324954

2020-07-08 11:06:52

基本数据结构——线性结构（队列、双端队列）

1. 什麼是隊列？隊列是一種有次序的數據集合，其特徵是新數據項的添加總髮生在一端（通常稱爲“尾端”），而現存數據項的移除總髮生在另一端（通常稱爲“首front”端）。新加入的數據項必須在數據集末尾等待，而等待時間最長的數據項則

weixin_38324954

2020-07-08 11:06:52

递归(Recursion)及其应用

1. 什麼是遞歸遞歸是一種解決問題的方法，其精髓在於將問題分解爲規模更小的相同問題，持續分解，直到問題規模小到可以用非常簡單直接的方式來解決。遞歸問題分解方式非常獨特，其算法方面的明顯特徵就是：在算法流程中調用自身。 2. 遞

weixin_38324954

2020-07-08 11:06:52

未理解的题

關於樹的深度優先搜索算法描述錯誤的是 A : 按照某個條件往前試探搜索,如果前進中遭遇失敗, 則退回頭另選通路繼續搜索,直到找到條件目標爲止 B: 先訪問該節點所有的子節點, 遍歷完畢後選取它未訪問過的子節點重複上述過程,直到找到

2020-07-08 10:56:02

按位与& 和模运算 % 的关系

unsigned int MAX = 32; // 2的5次方 unsigned int index = 31; index = (index + 100) % MAX; printf ("inde

2020-07-08 10:56:02

位运算判断两个数是否异号

首先介紹下負數在計算機中的表示和存儲在計算機系統中，數值一律用補碼錶示和存儲。含符號位和數值位，符號位：0表示“正”； 1表示“負”。正數的補碼 = 原碼負數的補碼 = 負數的原碼取反（符號位保持不變）+ 1 列如比如

2020-07-08 10:56:01

按位或与加法的区别

0 | 0 = 0 1 | 1 = 1 0 | 1 = 1 1 | 0 = 1 0 ^ 0 = 0 1 ^ 1 = 0 0 ^ 1 = 1 1 ^ 0 = 1 0 & 0 = 0 1 &

2020-07-08 10:56:01

24小時熱門文章

最新文章

最新評論文章