常用的有两种度量: Jaccard Similarity与Cosine Similarity
Jaccard Similarity的定义如下: 两组文本的交集大小除以两组文本的并集大小;
Cosine Similarity的定义如下: 两组文本进行TF或者TF-IDF变换后,化为向量,计算向量夹角的余弦。
常用的有两种度量: Jaccard Similarity与Cosine Similarity
Jaccard Similarity的定义如下: 两组文本的交集大小除以两组文本的并集大小;
Cosine Similarity的定义如下: 两组文本进行TF或者TF-IDF变换后,化为向量,计算向量夹角的余弦。