multidimensional scaling

原創

2020-06-16 03:11

multidimensional scaling

問題描述

給定 $n$ 個 $d$ 維的數據點 $x_1,x_2, \dots,x_n$ ，對數據進行降維。降維的標準是降維後數據點之間的距離 $d_{ij}^{(Y)}$ 接近原數據點間的距離 $d_{ij}^{(X)}$ 。

$X=\left[ \begin{matrix} x_1 & x_2 & \dots & x_n\end{matrix} \right]_{d*n}, x_i \in R^d$
$Y=\left[ \begin{matrix} y_1 & y_2 & \dots & y_n\end{matrix}\right]_{p*n}, y_i \in R^p, p < d$

用數學表達是就是 $\min_Y \sum_{i=1}^n \sum_{j=1}^n (d_{ij}^{(X)}-d_{ij}^{(Y)})^2$ .

距離矩陣 $D=\left[\begin{matrix} d_{11} & d_{12} & \dots & d_{1n} \\ d_{21} & d_{22} & \dots & d_{2n} \\ \vdots & \vdots & \vdots \\ d_{n1} & d_{n2} & \dots & d_{nn}\end{matrix}\right]$

$d_{ij}$ 表示第 $i$ 個點和第 $j$ 個點的距離，下面說的距離都是歐式距離。

推導過程

滑鐵盧大學Ali Ghodsi教授直接從正面推導的過程我實在看不懂。

可以換個角度看問題，新的數據點只利用了點之間的距離，可以用距離矩陣 $D$ ，假設不知道原空間的點，用 $D$ 推導出 $X$ ，這裏推出的 $X$ 其實就是 $Y$ ，能理解不。

利用一箇中間矩陣 $B=X^TX$ 。由已知 $D$ 推出 $B$ ，然後再推出 $X$ ： $D\rightarrow B \rightarrow X$ 。

$B=X^TX=\left[\begin{matrix} x_1^T \\ x_2^T \\ \vdots \\ x_n^T\end{matrix}\right]\left[\begin{matrix} x_1 & x_2 & \dots & x_n \end{matrix}\right]=\left[\begin{matrix} x_1^Tx_1 & x_1^Tx_2 & \dots &x_1^Tx_n \\ x_2^Tx_1 & x_2^Tx_2 & \dots & x_2^Tx_n \\ \vdots & \vdots & \dots & \vdots \\x_n^Tx_1 & x_n^Tx_2 & \dots & x_n^Tx_n \end{matrix}\right]$

$b_{ij}=x_i^Tx_j$
$d_{ij}^2=\left \lVert x_i-x_j\right \rVert^2=(x_i-x_j)^T(x_i-x_j)=x_i^Tx_i+x_j^Tx_j-2x_ix_j=b_{ii}+b_{jj}-2b_{ij}$ .

設想一下，只保持點之間的距離不變，點們不是唯一的，把一堆點進行平移、旋轉、翻轉，是不會影響它們之間的距離的。

所以對 $X$ 進行限制，限制點們不要平移，可以把平均點固定在原點，也就是 $\sum_{i=1}^nx_i=0$ .

我們要用 $D$ 中的值表示 $b_{ij}$ ，這樣就相當於知道了 $B$ 。
$d_{ij}^2=b_{ii}+b_{jj}-2b_{ij} \tag{1}$
設 $B$ 的跡爲 $T=\sum_{i=1}^nb_{ii}$ .

對 $(1)$ 式對 $i$ 求和，即 $\sum_{i=1}^nd_{ij}^2=\sum_{i=1}^nb_{ii} + \sum_{i=1}^nb_{jj}-2\sum_{i=1}^nb_{ij}=T+nb_{jj}-0 \tag{2.1}$ .

其中 $\sum_{i=1}^nb_{ij}=\sum_{i=1}^nx_i^Tx_j=(\sum_{i=1}^nx_i)^Tx_j=0$ ，因爲 $X$ 均值在原點。

同理對 $(1)$ 式對j求和，得： $\sum_{i=1}^nd_{ij}^2=\sum_{i=1}^nb_{ii} + \sum_{i=1}^nb_{jj}-2\sum_{i=1}^nb_{ij}=T+nb_{jj}-0 \tag{2.2}$ .

對 $(1)$ 式對 $i,j$ 求和，得：
$\sum_{i=1}^n \sum_{j=1}^nd_{ij}^2=\sum_{i=1}^n \sum_{j=1}^nb_{ii}+\sum_{i=1}^n \sum_{j=1}^nb_{jj}-2\sum_{i=1}^n \sum_{j=1}^nb_{ij}=nT+nT-0 \tag{2.3}$ you

由上面四個式子就可以得出 $b_{ij}$ ：
$b_{ij}=-\frac{1}{2}(d_{ij}^2-\frac{1}{n}\sum_id_{ij}^2-\frac{1}{n}\sum_jd_{ij}^2+\frac{1}{n^2}\sum_i\sum_jd_{ij}^2) \tag{3}$ .

第一步 $B$ 已經得出來了。第二步 $B=X^TX$ ， $B$ 是對稱的，實對稱矩陣一定能對角化（線代書上的定理）， $B=Q\Lambda Q^T=(Q\Lambda^{\frac{1}{2}})(Q\Lambda^{\frac{1}{2}})^T$ ， $X=\Lambda^\frac{1}{2}Q$ ， $Q$ 中的列是 $B$ 的最大 $p$ 個特徵值對應的特徵向量， $\Lambda$ 是 $B$ 的最大的 $p$ 個特徵值。

題外話

Ali Ghodsi教授的推導我實在看不明白，不過最後的結論是一樣的。
老師推導中有 $K=-\frac{1}{2}HDH=X^TX$ ，我上面的推導中有類似的結論，不過不一樣 $B=X^TX=-\frac{1}{2}HD'H$ ，其中 $d'_{ij}=d_{ij}^2$ 。

$H=I-\frac{1}{n}ee^T=\left[\begin{matrix} 1-\frac{1}{n} & -\frac{1}{n} & \dots & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} & \dots & -\frac{1}{n} \\ \vdots & \vdots & \dots &\vdots \\ -\frac{1}{n} & -\frac{1}{n} & \dots & 1-\frac{1}{n} \end{matrix}\right]_{n*n}$

$\begin{aligned} -\frac{1}{2}HD'H &= \\ &= -\frac{1}{2} \left[\begin{matrix} 1-\frac{1}{n} & -\frac{1}{n} & \dots & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} & \dots & -\frac{1}{n} \\ \vdots & \vdots & \dots &\vdots \\ -\frac{1}{n} & -\frac{1}{n} & \dots & 1-\frac{1}{n} \end{matrix}\right] \left[ \begin{matrix} d_{11}^2 & d_{12}^2 & \dots & d_{1n}^2 \\ d_{21}^2 & d_{22}^2 & \dots & d_{2n}^2 \\ \vdots & \vdots & \dots & \vdots \\ d_{n1}^2 & d_{n2}^2 & \dots & d_{nn}^2 \end{matrix}\right] \left[\begin{matrix} 1-\frac{1}{n} & -\frac{1}{n} & \dots & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} & \dots & -\frac{1}{n} \\ \vdots & \vdots & \dots &\vdots \\ -\frac{1}{n} & -\frac{1}{n} & \dots & 1-\frac{1}{n} \end{matrix}\right] \\ &=-\frac{1}{2}\left[\begin{matrix} \dots \\ \dots \\ -\frac{1}{n}\sum_id_{i1}^2+d_{i1} & -\frac{1}{n}\sum_id_{i2}^2+d_{i2} & \dots & -\frac{1}{n}\sum_id_{in}^2+d_{in} \\ \dots \end{matrix}\right] \left[ \begin{matrix} \dots & \dots & -\frac{1}{n} & \dots \\ \dots & \dots & -\frac{1}{n} & \dots \\ \vdots &\vdots &1- \frac{1}{n} & \vdots \\\dots & \dots & -\frac{1}{n} & \dots \\ \end{matrix}\right] \\ &=-\frac{1}{2}\left[ \begin{matrix} \vdots \\ \dots \frac{1}{n^2}\sum_i\sum_jd_{ij}^2-\frac{1}{n}\sum_jd_{ij}^2+d_{ij}^2-\frac{1}{n}\sum_id_{ij}^2 & \dots \\ \vdots \end{matrix}\right] \\ &=B \end{aligned}$

所以 $-\frac{1}{2}HD'H=B=X^TX$ ，嗯，跟老師的不一樣。

參考資料

T. Cox and M. Cox. Multidimensional Scaling. Chapman Hall, Boca Raton, 2nd edition,
2001.
http://www.stat.nthu.edu.tw/~swcheng/Teaching/stat5191/lecture/06_MDS.pdf

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

multidimensional scaling

multidimensional scaling

問題描述

推導過程

題外話

參考資料

Wireshark 安裝+使用（一）

博客園商業化之路-衆包平臺：繼續召集早期合作開發者

multidimensional scaling

線代和概率論補漏

文檔自動化工具 Swagger

726. Number of Atoms

項目備忘

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結