馬氏距離（Mahalanobis Distance）介紹與實例

原創

hustqb

2020-07-03 19:10

本文介紹馬氏距離（Mahalanobis Distance），通過本文，你將瞭解到馬氏距離的含義、馬氏距離與歐式距離的比較以及一個通過馬氏距離進行異常檢測的例子（基於Python的sklearn包）。

目的

計算兩個樣本間的距離時，需要考慮樣本所在的分佈造成的影響。影響包括兩個方面：

不同維度上的方差不同，進而不同維度在計算距離時的重要性不同；
不同維度間可能存在相關性，干擾距離計算。

當數據的分佈已知時，我們通常會用馬氏距離代替歐氏距離，或者選擇另一種方法：對數據進行轉換（如PCA）。

定義

度量樣本到樣本分佈間的距離
$d = \sqrt{(\vec x - \vec \mu)^T S^{-1} (\vec x - \vec \mu)}$ 其中 $\vec \mu$ 是樣本分佈的均值， $S$ 是樣本分佈的協方差矩陣
度量一個分佈下，兩個樣本之間的距離
$d = \sqrt{(\vec x - \vec y)^TS^{-1}(\vec x - \vec y)}$

直觀理解

下面是一個二維空間中距離度量的例子（戳這裏查看實例來源）。

圖中，圓圈表示樣本分佈的中心點 $c$ ，兩個叉分別表示兩個樣本點 $x, y$ ，從圖中可以看出，在二維空間中兩個叉到樣本分佈的中心點間的歐氏距離相等。但是很明顯，綠叉應該是分佈內的點，紅叉是分佈外的點，所以綠叉距離分佈中心點的距離應該更近才合理。

使用馬氏距離，就等同於通過數據轉換的方法，消除樣本中不同特徵維度間的相關性和量綱差異，使的歐式距離在新的分佈上能有效度量樣本到分佈間的距離。

第一步，端詳一下原始數據分佈的特點。
這些樣本的特徵維度即爲橫座標軸和縱座標軸，且兩個特徵維度呈現明顯的正相關性。
第二步，消除不同維度之間的相關性。
消除特徵維度間的相關性後，樣本分佈圖如下所示，還存在的一個問題是兩個特徵維度間的量綱不一致。

第三步，消除不同維度之間的量綱差異。

經過以上三步，現在的樣本分佈下，樣本間的距離可以用歐氏距離來衡量。

性質

馬氏距離消除了樣本不同維度之間的方差差異和相關性，是一個無量綱的度量方式。

與歐式距離的關係

如果協方差矩陣是單位矩陣 $\rightarrow$ 樣本的特徵維度間相關性（協方差）爲0，量綱一致 $\rightarrow$ 馬氏距離等同於歐氏距離。
如果協方差矩陣是對角矩陣 $\rightarrow$ 樣本的特徵維度間的量綱一致 $\rightarrow$ 馬氏距離等同於標準化後的歐氏距離。

實例——用馬氏距離進行異常檢測

實例來自sklearn官方文檔

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

馬氏距離（Mahalanobis Distance）介紹與實例

目的

定義

直觀理解

性質

與歐式距離的關係

實例——用馬氏距離進行異常檢測

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

5分鐘瞭解受限玻爾茲曼機(RBM)

自然語言處理中的Word Embedding簡介

馬氏距離（Mahalanobis Distance）介紹與實例

瞭解一下Sklearn中的文本特徵提取

給模型熱身——深度學習中的warm up

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結