Python---爬蟲---清洗---Levenshtein(計算字符串相似度,編輯距離等)

安裝:pip install python-Levenshtein

1.Levenshtein.hamming(str1, str2) ,計算漢明距離。要求str1和str2必須長度一致。是描述兩個等長字串之間對應位置上不同字符的個數。

2.Levenshtein.distance(str1, str2),計算編輯距離(也成Levenshtein距離)。是描述由一個字串轉化成另一個字串最少的操作次數,在其中的操作包括插入刪除替換

3.Levenshtein.ratio(str1, str2),計算萊文斯坦比。計算公式  r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的長度總和,ldist是類編輯距離,這裏的類編輯距離不是2中所說的編輯距離,2中三種操作中每個操作+1,而在此處,刪除、插入依然+1,但是替換+2

4. Levenshtein.jaro(s1, s2)

計算jaro距離,

其中的m爲s1, s2的匹配長度,當某位置的認爲匹配 當該位置字符相同,或者在不超過

         t是調換次數的一半

5. Levenshtein.jaro_winkler(s1, s2)

計算Jaro–Winkler距離

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章