基於距離的數學計算方法

1. 歐氏距離(Euclidean Distance)

歐氏距離是最易於理解的一種距離計算方法，源自歐氏空間中兩點間的距離公式。

(1)二維平面上兩點a(x1,y1)與b(x2,y2)間的歐氏距離：

(2)三維空間兩點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離：

(3)兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的歐氏距離：

　　也可以用表示成向量運算的形式：

(4)Matlab計算歐氏距離

Matlab計算距離主要使用pdist函數。若X是一個M×N的矩陣，則pdist(X)將X矩陣M行的每一行作爲一個N維向量，然後計算這M個向量兩兩間的距離。

例子：計算向量(0,0)、(1,0)、(0,2)兩兩間的歐式距離

X = [0 0 ; 1 0 ; 0 2]

D = pdist(X,'euclidean')

結果：

D =

1.0000 2.0000 2.2361

2. 曼哈頓距離(Manhattan Distance)

從名字就可以猜出這種距離的計算方法了。想象你在曼哈頓要從一個十字路口開車到另外一個十字路口，駕駛距離是兩點間的直線距離嗎？顯然不是，除非你能穿越大樓。實際駕駛距離就是這個“曼哈頓距離”。而這也是曼哈頓距離名稱的來源，曼哈頓距離也稱爲城市街區距離(City Block distance)。

(1)二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離

(2)兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的曼哈頓距離

(3) Matlab計算曼哈頓距離

例子：計算向量(0,0)、(1,0)、(0,2)兩兩間的曼哈頓距離

X = [0 0 ; 1 0 ; 0 2]

D = pdist(X, 'cityblock')

結果：

D =

1 2 3

5. 標準化歐氏距離(Standardized Euclidean distance )

(1)標準歐氏距離的定義

　　標準化歐氏距離是針對簡單歐氏距離的缺點而作的一種改進方案。標準歐氏距離的思路：既然數據各維分量的分佈不一樣，好吧！那我先將各個分量都“標準化”到均值、方差相等吧。均值和方差標準化到多少呢？這裏先複習點統計學知識吧，假設樣本集X的均值(mean)爲m，標準差(standard deviation)爲s，那麼X的“標準化變量”表示爲：

　　而且標準化變量的數學期望爲0，方差爲1。因此樣本集的標準化過程(standardization)用公式描述就是：