计算文本相似性的方法

常用的有两种度量:   Jaccard Similarity与Cosine Similarity

 Jaccard Similarity的定义如下: 两组文本的交集大小除以两组文本的并集大小;

Cosine Similarity的定义如下: 两组文本进行TF或者TF-IDF变换后,化为向量,计算向量夹角的余弦。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章