本文將介紹一些數據挖掘、機器學習、信息檢索等領域中常用的一些相似性、相關性度量指標:
(1)Euclidean Distance(歐幾里德距離、歐氏距離)
設有兩個向量,
它們之間的Euclidean Distance爲:
,值越小越相似。
(2)Manhattan Distance(曼哈頓距離)
設有兩個向量,
它們之間的Manhattan Distance爲:
,值越小越相似。(3)Minkowsk Distance(閔可夫斯基距離)
設有兩個向量,
它們之間的Minkowsk Distance爲:
,值越小越相似。
(4)Hamming Distance(海明距離)
Hamming Distance可以用來度量兩個串(通常是二進制串)的距離,其定義爲這兩個二進制串對應的位有幾個不一樣,那麼海明距離就是幾,值越小越相似。例如x=1010,y=1011,那麼x和y的海明距離就是1。又如x=1000,y=1111,那麼x和y的海明距離就是3。
(5)Jaccard Coefficient(Jaccard 係數)
Jaccard Coefficient用來度量兩個集合的相似度,設有兩個集合和,它們之間的Jaccard Coefficient定義爲:
,值越大越相似。
例如,,則。
(6)Pearson Correlation Coefficient(皮爾森相關係數)
設有兩個向量,
它們之間的Pearson Correlation Coefficient爲:
,值越大越相關。
(7)Cosine Similarity(餘弦相似度)
設有兩個向量,
它們之間的Cosine Similarity爲:
,值越大越相似。(8)Mahalanobis Distance(馬氏距離)
設有兩個向量,
它們之間的Mahalanobis Distance爲:
,值越小越相似。其中爲x和y的協方差矩陣。
(9)Kullback-Leibler Divergence(KL散度)
KL散度用來度量兩個分佈之間的距離,分佈P和分佈Q的KL散度定義爲:
,值越小,兩個分佈就越相似。
(10)PMI (Pointwise Mutual Information,點對互信息)
PMI利用co-occurance來衡量兩個東西x和y的相似度,定義爲:
,值越大越相關。
其中爲x,y一起出現的概率,爲x出現的概率,爲y出現的概率。
(11)NGD(Normalized Google Distance)
NGD可以用來度量兩個東西x和y之間的相關性,作用和PMI有點類似,定義爲:
,值越大越相關。
其中是x在文檔集中出現的頻率,是y在文檔集中出現的頻率,是x,y在文檔集中一起出現的頻率,是文檔集的大小。