常用相似性、相關性度量指標

  本文將介紹一些數據挖掘、機器學習、信息檢索等領域中常用的一些相似性、相關性度量指標:

(1)Euclidean Distance(歐幾里德距離、歐氏距離)

         設有兩個向量

         它們之間的Euclidean Distance爲:

         ,值越小越相似。


(2)Manhattan Distance(曼哈頓距離)

         設有兩個向量

         它們之間的Manhattan Distance爲:

              ,值越小越相似。


(3)Minkowsk Distance閔可夫斯基距離)

         設有兩個向量

         它們之間的Minkowsk Distance爲:

         ,值越小越相似。


(4)Hamming Distance海明距離)

          Hamming Distance可以用來度量兩個串(通常是二進制串)的距離,其定義爲這兩個二進制串對應的位有幾個不一樣,那麼海明距離就是幾,值越小越相似。例如x=1010,y=1011,那麼x和y的海明距離就是1。又如x=1000,y=1111,那麼x和y的海明距離就是3。


(5)Jaccard CoefficientJaccard 係數

         Jaccard Coefficient用來度量兩個集合的相似度,設有兩個集合,它們之間的Jaccard Coefficient定義爲:

         ,值越大越相似。

          例如,則


(6)Pearson Correlation Coefficient(皮爾森相關係數

         設有兩個向量

         它們之間的Pearson Correlation Coefficient爲:

         ,值越大越相關。


(7)Cosine Similarity餘弦相似度

         設有兩個向量

         它們之間的Cosine Similarity爲:

               ,值越大越相似。


(8)Mahalanobis Distance(馬氏距離)

         設有兩個向量

         它們之間的Mahalanobis Distance爲:

         ,值越小越相似。

          其中爲x和y的協方差矩陣。


(9)Kullback-Leibler Divergence(KL散度)

           KL散度用來度量兩個分佈之間的距離,分佈P和分佈Q的KL散度定義爲:

          ,值越小,兩個分佈就越相似。


(10)PMI (Pointwise Mutual Information,點對互信息)

          PMI利用co-occurance來衡量兩個東西x和y的相似度,定義爲:

          ,值越大越相關。

          其中爲x,y一起出現的概率,爲x出現的概率,爲y出現的概率。


(11)NGD(Normalized Google Distance

           NGD可以用來度量兩個東西x和y之間的相關性,作用和PMI有點類似,定義爲:

          ,值越大越相關。
                 其中是x在文檔集中出現的頻率,是y在文檔集中出現的頻率,是x,y在文檔集中一起出現的頻率,是文檔集的大小。

    

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章