KMP算法python代碼

原創

2020-06-15 14:18

問題：給定兩個字符串a="sdfaabcddsdfssd",b="df"找出字串b在a中的下標位置。

樸素模式匹配算法:

def str_index(a,b,pos=0):
    i = pos
    j = 0
    while i < len(a) and j < len(b):
        if a[i] == b[j]:
            j += 1
            i += 1
        else:
            i = i-j+1
            j = 0
    if j == len(b):
         return i-j
    else:
         return -1

KMP算法:需創建next_arr數組，存放b串中每個下標位置前(不包含當前下標) 字符串的前綴和後綴相同的個數，作用是：在字符匹配失敗時，判定應該繼續從b串的哪一位字符開始繼續匹配


def kmp_next(b):
    next_arr = [-1] * len(b)
    i = 0
    j = -1
    while i < len(b)-1:
        if j == -1 or b[j] == b[i]:
            i += 1
            j += 1
            next_arr[i] = j
        else:
            j = next_arr[j]
    return next_arr

def kmp_index(a,b,pos=0):
    i = pos
    j = -1
    kmp_next_arr = kmp_next(b)
    while i < len(a) and j < len(b):
        if j == -1 or a[i] == b[j]:
            i += 1
            j += 1
        else:
            j = kmp_next_arr[j]
    if j == len(b):
        return i - j
    else:
        return -1

if __name__ == '__main__':
    # index = str_index('sdfaabcddsdfssd','sdf',1)
    index = kmp_index('sdfaabcddsdfssd','df')

KMP的改進算法：修改了next_arr數組的獲取方法。

主要邏輯：

1.假設b串中當前需要判斷的位置下標爲：k。

2.k位置下對應的前字符串前後綴字符重複個數爲：n,即next_arr[k]=n。

3.n位置下對應的前字符串前後綴字符重複個數爲：nn,即next_arr[n]=nn.

則判斷b[k]與b[n]的值是否相同，若相同next_arr[k]=nn,若不同，下標k對應的值不變，還是next_arr[k] = n

def kmp_next_optimize(b):
    next_arr = [-1] * len(b)
    i = 0
    j = -1
    while i < len(b)-1:
        if j == -1 or b[j] == b[i]:
            i += 1
            j += 1
            if b[j] != b[i]:
                next_arr[i] = j
            else:
                next_arr[i] = next_arr[j]
        else:
            j = next_arr[j]
    return next_arr

若代碼難以理解可參考博客：https://blog.csdn.net/v_JULY_v/article/details/7041827

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

KMP算法python代碼

CRF簡單理解總結

mac版idea快捷鍵

KMP算法python代碼

python實現基於最小堆的topk

機器學習中數據清洗和特徵選擇總結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結