歐氏距離與馬氏距離的優缺點是什麼?

歐氏距離與馬氏距離的優缺點是什麼?      

歐氏距離(Euclidean distance)也稱歐幾里得度量、歐幾里得度量,是一個通常採用的距離定義,它是在m維空間中兩個點之間的真實距離。在二維和三維空間中的歐氏距離的就是兩點之間的距離。

  
缺點:就大部分統計問題而言,歐氏距離是不能令人滿意的。(每個座標對歐氏距離的貢獻是同等的。當座標表示測量值時,它們往往帶有大小不等的隨機波動,在這種情況下,合理的方法是對座標加權,使變化較大的座標比變化較小的座標有較小的權係數,這就產生了各種距離。當各個分量爲不同性質的量時,“距離”的大小與指標的單位有關。它將樣品的不同屬性(即各指標或各變量)之間的差別等同看待,這一點有時不能滿足實際要求。沒有考慮到總體變異對距離遠近的影響。      


馬氏距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯提出的,表示數據的協方差距離。爲兩個服從同一分佈並且其協方差矩陣爲Σ的隨機變量與的差異程度:如果協方差矩陣爲單位矩陣,那麼馬氏距離就簡化爲歐氏距離,如果協方差矩陣爲對角陣,則其也可稱爲正規化的歐氏距離。它是一種有效的計算兩個未知樣本集的相似度的方法。對於一個均值爲μ,協方差矩陣爲Σ的多變量向量,樣本與總體的馬氏距離爲(dm)^2=(x-μ)'Σ^(-1)(x-μ)。 在絕大多數情況下,馬氏距離是可以順利計算的,但是馬氏距離的計算是不穩定的,不穩定的來源是協方差矩陣,這也是馬氏距離與歐式距離的最大差異之處。 


優點:它不受量綱的影響,兩點之間的馬氏距離與原始數據的測量單位無關。(它考慮到各種特性之間的聯繫(例如:一條關於身高的信息會帶來一條關於體重的信息,因爲兩者是有關聯的)並且是尺度無關的(scale-invariant),即獨立於測量尺度);由標準化數據和中心化數據(即原始數據與均值之差)計算出的二點之間的馬氏距離相同。馬氏距離還可以排除變量之間的相關性的干擾。  


缺點:誇大了變化微小的變量的作用。受協方差矩陣不穩定的影響,馬氏距離並不總是能順利計算出。  

發佈了25 篇原創文章 · 獲贊 18 · 訪問量 16萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章