nltk中的metrics模塊中提供了各種評估或相似性度量的方法:
1.通過計算編輯距離執行相似性度量
# 編輯距離:爲了使兩個字符串形同 所需插入、替換或刪除的字符數量
如:"text"到"test"的編輯距離爲1,"good"到"looking"的編劇距離爲5
from nltk.metrics import edit_distance print edit_distance("good", "looking")
2.Jaccard係數執行相似性度量
# 計算兩個集合的相速度:(兩個集合的並集長度-兩個集合的交集長度)/兩個集合 的並集長度
from nltk.metrics import jaccard_distance a = set([1, 2, 3, 4]) b = set([1, 2, 5, 6]) # 參數必須是兩個集合(6-2)/6 print(jaccard_distance(b, a)) # 0.666666666667