編輯距離(Minimum Edit Distance,MED),由俄羅斯科學家 Vladimir Levenshtein 在1965年提出,也因此而得名 Levenshtein Distance。Levenshtein Distance 是用來度量兩個序列相似程度的指標。通俗地來講,編輯距離指的是在兩個單詞之間,由其中一個單詞轉換爲另一個單詞所需要的最少單字符編輯操作次數。
單字符編輯操作有且僅有三種:
- 插入(Insertion)
- 刪除(Deletion)
- 替換(Substitution)
形式化定義
我們將兩個字符串 的 Levenshtein Distance 表示爲 ,其中 和 分別對應 的長度。那麼,在這裏兩個字符串 的 Levenshtein Distance,即 可用如下的數學語言描述:
定義 指的是 中前 個字符和 中前 個字符之間的距離。