機器學習 之 各種距離

今天,在看大神的距離度量,被各種距離應用場景的神總結驚呆了,先引用一下鎮鎮樓:

簡單說來,各種“距離”的應用場景簡單概括爲,
空間:歐氏距離
路徑:曼哈頓距離
國際象棋國王:切比雪夫距離
以上三種的統一形式:閔可夫斯基距離
加權:標準化歐氏距離
排除量綱和依存:馬氏距離
向量差距:夾角餘弦
編碼差別:漢明距離
集合近似度:傑卡德類似係數與距離
相關:相關係數與相關距離。

下面就挑一些比較有名的記錄一下,詳細的還要參考大神的原文。

歐氏距離

  • 最常見的兩點或多點之間的距離度量方法
  • 點 x = (x1,…,xn) 和 y = (y1,…,yn) 之間的距離爲:
    歐氏距離

曼哈頓距離

  • L1距離或者城市街區距離,兩點形成的線段在固定直角座標系兩個軸產生的投影的總和。
  • 二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離
    曼哈頓距離

切比雪夫距離(Chebyshev Distance)

  • Lp度量的極值,L∞度量。
  • 在平面幾何中,若二點p及q的直角座標系座標爲(x1,y1)及(x2,y2),則切比雪夫距離爲:
  • 切比雪夫距離

閔可夫斯基距離(Minkowski Distance)

  • 對上述三種距離的總結。
  • 兩個n維變量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的閔可夫斯基距離定義爲:
    閔式距離
    其中p是一個變參數。
    當p=1時,就是曼哈頓距離
    當p=2時,就是歐氏距離
    當p→∞時,就是切比雪夫距離
    根據變參數的不同,閔氏距離可以表示一類的距離。

標準化歐氏距離(Standardized Euclidean Distance)

  • 將各個分量都標準化到均值和方差相等,然後再求距離。
  • 樣本集的標準化過程爲
    標準化歐式距離
    標準化後的值 = ( 標準化前的值 - 分量的均值 ) /分量的標準差

  • 兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的標準化歐氏距離的公式:
    這裏寫圖片描述

漢明距離(Hamming Distance)

  • 兩個等長的字符串其中一個變爲另一個所需要的最小替換次數

夾角餘弦(Cosine)

  • 衡量兩個向量之間的差異。
  • 在二維空間中向量A(x1,y1)與向量B(x2,y2)的夾角餘弦公式:
    這裏寫圖片描述
    夾角餘弦取值範圍爲[-1,1]。夾角餘弦越大表示兩個向量的夾角越小,夾角餘弦越小表示兩向量的夾角越大。當兩個向量的方向重合時夾角餘弦取最大值1,當兩個向量的方向完全相反夾角餘弦取最小值-1。

傑卡德相似係數(Jaccard Similarity Coefficient)

  • 衡量兩個集合相似度的方法。
  • 兩個集合的交集在兩個集合的並集中所佔的比例。
    傑卡德
  • 傑卡德距離
    這裏寫圖片描述

相關係數(Correlation Coefficient)和距離

  • 相關係數:衡量隨機變量相關程度的方法
    這裏寫圖片描述
  • 取值範圍爲[-1,1],絕對值越大越相關
  • 相關距離:
    這裏寫圖片描述

皮爾遜積矩相關係數(Pearson product-moment Correlation Coefficient)和距離

  • 度量兩個變量X和Y的相關性
  • 兩個變量之間的協方差和標準差的商
  • 這裏寫圖片描述
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章