今天,在看大神的距離度量,被各種距離應用場景的神總結驚呆了,先引用一下鎮鎮樓:
簡單說來,各種“距離”的應用場景簡單概括爲,
空間:歐氏距離
路徑:曼哈頓距離
國際象棋國王:切比雪夫距離
以上三種的統一形式:閔可夫斯基距離
加權:標準化歐氏距離
排除量綱和依存:馬氏距離
向量差距:夾角餘弦
編碼差別:漢明距離
集合近似度:傑卡德類似係數與距離
相關:相關係數與相關距離。
下面就挑一些比較有名的記錄一下,詳細的還要參考大神的原文。
歐氏距離
- 最常見的兩點或多點之間的距離度量方法
- 點 x = (x1,…,xn) 和 y = (y1,…,yn) 之間的距離爲:
曼哈頓距離
- L1距離或者城市街區距離,兩點形成的線段在固定直角座標系兩個軸產生的投影的總和。
- 二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離
切比雪夫距離(Chebyshev Distance)
- Lp度量的極值,L∞度量。
- 在平面幾何中,若二點p及q的直角座標系座標爲(x1,y1)及(x2,y2),則切比雪夫距離爲:
閔可夫斯基距離(Minkowski Distance)
- 對上述三種距離的總結。
- 兩個n維變量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的閔可夫斯基距離定義爲:
其中p是一個變參數。
當p=1時,就是曼哈頓距離
當p=2時,就是歐氏距離
當p→∞時,就是切比雪夫距離
根據變參數的不同,閔氏距離可以表示一類的距離。
標準化歐氏距離(Standardized Euclidean Distance)
- 將各個分量都標準化到均值和方差相等,然後再求距離。
樣本集的標準化過程爲
標準化後的值 = ( 標準化前的值 - 分量的均值 ) /分量的標準差兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的標準化歐氏距離的公式:
漢明距離(Hamming Distance)
- 兩個等長的字符串其中一個變爲另一個所需要的最小替換次數
夾角餘弦(Cosine)
- 衡量兩個向量之間的差異。
- 在二維空間中向量A(x1,y1)與向量B(x2,y2)的夾角餘弦公式:
夾角餘弦取值範圍爲[-1,1]。夾角餘弦越大表示兩個向量的夾角越小,夾角餘弦越小表示兩向量的夾角越大。當兩個向量的方向重合時夾角餘弦取最大值1,當兩個向量的方向完全相反夾角餘弦取最小值-1。
傑卡德相似係數(Jaccard Similarity Coefficient)
- 衡量兩個集合相似度的方法。
- 兩個集合的交集在兩個集合的並集中所佔的比例。
- 傑卡德距離
相關係數(Correlation Coefficient)和距離
- 相關係數:衡量隨機變量相關程度的方法
- 取值範圍爲[-1,1],絕對值越大越相關
- 相關距離:
皮爾遜積矩相關係數(Pearson product-moment Correlation Coefficient)和距離
- 度量兩個變量X和Y的相關性
- 兩個變量之間的協方差和標準差的商