編輯距離(Edit Distance)

編輯距離(Minimum Edit Distance,MED),由俄羅斯科學家 Vladimir Levenshtein 在1965年提出,也因此而得名 Levenshtein Distance。Levenshtein Distance 是用來度量兩個序列相似程度的指標。通俗地來講,編輯距離指的是在兩個單詞<w_{1},w_{2}>之間,由其中一個單詞w_{1}轉換爲另一個單詞w_{2}所需要的最少單字符編輯操作次數。

 

單字符編輯操作有且僅有三種:

  • 插入(Insertion)
  • 刪除(Deletion)
  • 替換(Substitution)

 

形式化定義

我們將兩個字符串a,b 的 Levenshtein Distance 表示爲lev_{a,b}(|a|,|b|) ,其中 |a||b| 分別對應 a,b的長度。那麼,在這裏兩個字符串 a,b 的 Levenshtein Distance,即 lev_{a,b}(|a|,|b|) 可用如下的數學語言描述:

定義lev_{a,b}(i,j)  指的是 a 中前  i個字符和  b前  j個字符之間的距離。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章