nltk:python自然語言處理四 相似性度量

nltk中的metrics模塊中提供了各種評估或相似性度量的方法:

1.通過計算編輯距離執行相似性度量

# 編輯距離:爲了使兩個字符串形同 所需插入、替換或刪除的字符數量

如:"text"到"test"的編輯距離爲1,"good"到"looking"的編劇距離爲5

from nltk.metrics import edit_distance

print edit_distance("good", "looking")

2.Jaccard係數執行相似性度量

# 計算兩個集合的相速度:(兩個集合的並集長度-兩個集合的交集長度)/兩個集合 的並集長度

from nltk.metrics import jaccard_distance

a = set([1, 2, 3, 4])
b = set([1, 2, 5, 6])
# 參數必須是兩個集合(6-2)/6
print(jaccard_distance(b, a))
# 0.666666666667
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章