編輯距離是用來比較兩個字符串之間相似度的度量方法,表示的是兩個字符串間相互轉換所需要的最少步驟。
編輯距離遞推公式:
算法計算步驟:
1.對於字符串A 'jarrry'和字符串B'jerr',先初始化矩陣dp爲 [len(A) + 1][len(B) + 1],dp矩陣的第一行與第一列均從零開始遞增,最後得矩陣爲
j | a | r | r | r | y | ||
0 | 1 | 2 | 3 | 4 | 5 | 6 | |
j | 1 | ||||||
e | 2 | ||||||
r | 3 | ||||||
r | 4 |
2.然後從第一列開始循環。對於每個矩陣座標 (i,j),設置中間變量temp,當 A[i] == B[j] 時,temp = 1;否則 temp = 0。
dp[i][j] = min(dp[i-1][j-1] + temp , min(dp[i-1][j] + 1 , dp[i][j-1] + 1))
3.循環完成dp矩陣爲
j | a | r | r | r | y | ||
0 | 1 | 2 | 3 | 4 | 5 | 6 | |
j | 1 | 0 | 1 | 2 | 3 | 4 | 5 |
e | 2 | 1 | 1 | 2 | 3 | 4 | 5 |
r | 3 | 2 | 2 | 1 | 2 | 3 | 4 |
r | 4 | 3 | 3 | 2 | 1 | 2 | 3 |
dp[len(A)][len(B)]就是A,B兩個字符串得編輯距離
python實現:
def edit_distance(word1, word2):
len1 = len(word1);
len2 = len(word2);
dp = np.zeros((len1 + 1,len2 + 1))
for i in range(len1 + 1):
dp[i][0] = i;
for j in range(len2 + 1):
dp[0][j] = j;
for i in range(1, len1 + 1):
for j in range(1, len2 + 1):
delta = 0 if word1[i-1] == word2[j-1] else 1
dp[i][j] = min(dp[i - 1][j - 1] + delta, min(dp[i-1][j] + 1, dp[i][j - 1] + 1))
return dp[len1][len2]
edit_distance("jarrry", "jerr")
3.0