常用相似性、相關性度量指標

原創

2018-08-22 10:42

本文將介紹一些數據挖掘、機器學習、信息檢索等領域中常用的一些相似性、相關性度量指標：

（1）Euclidean Distance（歐幾里德距離、歐氏距離）

設有兩個向量，

它們之間的Euclidean Distance爲：

，值越小越相似。

（2）Manhattan Distance（曼哈頓距離）

設有兩個向量，

它們之間的Manhattan Distance爲：

，值越小越相似。

（3）Minkowsk Distance（閔可夫斯基距離）

設有兩個向量，

它們之間的Minkowsk Distance爲：

，值越小越相似。

（4）Hamming Distance（海明距離）

Hamming Distance可以用來度量兩個串（通常是二進制串）的距離，其定義爲這兩個二進制串對應的位有幾個不一樣，那麼海明距離就是幾，值越小越相似。例如x=1010，y=1011，那麼x和y的海明距離就是1。又如x=1000，y=1111，那麼x和y的海明距離就是3。

（5）Jaccard Coefficient（Jaccard 係數）

Jaccard Coefficient用來度量兩個集合的相似度，設有兩個集合和，它們之間的Jaccard Coefficient定義爲：

，值越大越相似。

例如，，則。

（6）Pearson Correlation Coefficient（皮爾森相關係數）

設有兩個向量，

它們之間的Pearson Correlation Coefficient爲：

，值越大越相關。

（7）Cosine Similarity（餘弦相似度）

設有兩個向量，

它們之間的Cosine Similarity爲：

，值越大越相似。

（8）Mahalanobis Distance（馬氏距離）

設有兩個向量，

它們之間的Mahalanobis Distance爲：

，值越小越相似。

其中爲x和y的協方差矩陣。

（9）Kullback-Leibler Divergence（KL散度）

KL散度用來度量兩個分佈之間的距離，分佈P和分佈Q的KL散度定義爲：

，值越小，兩個分佈就越相似。

（10）PMI (Pointwise Mutual Information，點對互信息)

PMI利用co-occurance來衡量兩個東西x和y的相似度，定義爲：

，值越大越相關。

其中爲x,y一起出現的概率，爲x出現的概率，爲y出現的概率。

（11）NGD（Normalized Google Distance）

NGD可以用來度量兩個東西x和y之間的相關性，作用和PMI有點類似，定義爲：

，值越大越相關。
其中是x在文檔集中出現的頻率，是y在文檔集中出現的頻率，是x,y在文檔集中一起出現的頻率，是文檔集的大小。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章