〖機器學習白板推導1〗樣本均值&樣本方差&PCA!

〖機器學習白板推導1〗樣本均值&樣本方差&PCA!

  • 本文整理自b站大神【機器學習】【白板推導系列】
  • 首先假設樣本集 XN×p=(x1,,xn)\boldsymbol X_{N \times p}=(\boldsymbol x_{1}, \ldots, \boldsymbol x_{n})^{\top},其中 NN 爲樣本個數,pp 爲樣本維度。

一. 樣本均值

  • 樣本均值 xˉ\bar{\boldsymbol x} 爲:
    xˉ=1Ni=1Nxi=1N(x1,,xN)(1,,1)=1NXI(1)\bar{\boldsymbol x}=\frac{1}{N} \sum_{i=1}^{N} x_{i} =\frac{1}{N} (\boldsymbol x_{1}, \ldots, \boldsymbol x_{N}) (1, \ldots, 1)^{\top}= \frac{1}{N} \boldsymbol X^{\top} \boldsymbol I \tag{1} 其中:I=(1,,1)N×1\boldsymbol I=(1, \ldots, 1)^{\top}_{N \times 1} 爲列向量。

二. 樣本方差

  • 樣本方差 S\boldsymbol S 爲:
    S=1Ni=1N(xixˉ)(xixˉ)=1N(x1xˉ,,xNxˉ)(x1xˉ,,xNxˉ)=1N[(x1,,xN)(xˉ,,xˉ)][(x1,,xN)(xˉ,,xˉ)]=1N(Xxˉ(1,,1))(Xxˉ(1,,1))=1N(XxˉI)(XxˉI)(2)\begin{aligned} \boldsymbol S &=\frac{1}{N} \sum_{i=1}^{N}\left(\boldsymbol x_{i}-\bar{\boldsymbol x}\right)\left(\boldsymbol x_{i}-\bar{\boldsymbol x}\right)^{\top} \\ &=\frac{1}{N}\left(\boldsymbol x_{1}-\bar{\boldsymbol x}, \ldots, \boldsymbol x_{N}-\bar{\boldsymbol x}\right)\left(\boldsymbol x_{1}-\bar{\boldsymbol x}, \ldots, \boldsymbol x_{N}-\bar{\boldsymbol x}\right)^{\top} \\ &=\frac{1}{N} \left[ \left(\boldsymbol x_{1}, \ldots, \boldsymbol x_{N}\right)-\left(\bar{\boldsymbol x}, \ldots, \bar{\boldsymbol x}\right) \right]\left[ \left(\boldsymbol x_{1}, \ldots, \boldsymbol x_{N}\right)-\left(\bar{\boldsymbol x}, \ldots, \bar{\boldsymbol x}\right) \right] ^{\top} \\ &=\frac{1}{N} \left( \boldsymbol X^{\top}-\bar{\boldsymbol x}\left({1, \ldots, 1}\right)\right)\left( \boldsymbol X^{\top}-\bar{\boldsymbol x}\left({1, \ldots, 1}\right)\right)^{\top} \\ &=\frac{1}{N} \left( \boldsymbol X^{\top}-\bar{\boldsymbol x }\boldsymbol I^{\top}\right)\left( \boldsymbol X^{\top}-\bar{\boldsymbol x }\boldsymbol I^{\top}\right)^{\top} \tag{2} \end{aligned} 把樣本均值帶入可以得到:
    S=1N(X1NXII)(X1NXII)=1N[X(E1NII)][X(E1NII)](3)\begin{aligned} \boldsymbol S &=\frac{1}{N} \left( \boldsymbol X^{\top}-\frac{1}{N} \boldsymbol X^{\top} \boldsymbol I\boldsymbol I^{\top}\right)\left( \boldsymbol X^{\top}-\frac{1}{N} \boldsymbol X^{\top} \boldsymbol I\boldsymbol I^{\top}\right)^{\top} \\ &=\frac{1}{N} \left [ \boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)\right ] \left [\boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)^{\top} \right ] \tag{3} \end{aligned} 這裏令 HN×N=E1NII\boldsymbol H_{N \times N}=\boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}H\boldsymbol H 稱作中心矩陣

三. 中心矩陣的性質

  • 中心矩陣 H\boldsymbol H 爲對稱矩陣:
    H=E1NII=H(4)\boldsymbol H=\boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} =\boldsymbol H^{\top} \tag{4}

  • 中心矩陣 H\boldsymbol H 爲對稱矩陣:
    H2=HH=HH=(E1NII)(E1NII)=E2NII+1N2IIII(5)\begin{aligned} \boldsymbol H^2= \boldsymbol H^{\top} \boldsymbol H=\boldsymbol H\boldsymbol H &=\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \right) \left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \right) \\ &=\boldsymbol E-\frac{2}{N} \boldsymbol I\boldsymbol I^{\top} +\frac{1}{N^2} \boldsymbol I\boldsymbol I^{\top}\boldsymbol I\boldsymbol I^{\top} \tag{5}\end{aligned} 這裏 II=N\boldsymbol I^{\top}\boldsymbol I=N,所以等式 (5)(5) 可以化簡爲:
    H2=E2NII+1NII=E1NII=H(6)\begin{aligned} \boldsymbol H^2 &=\boldsymbol E-\frac{2}{N} \boldsymbol I\boldsymbol I^{\top} +\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \\ &=\boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \\ &=\boldsymbol H \tag{6} \end{aligned} 也就是 Hn=H\boldsymbol H^n=\boldsymbol H

  • 帶入中心矩陣之後,樣本方差 S\boldsymbol S
    S=1N[X(E1NII)][X(E1NII)]=1NXHHX=1NXHX(7)\begin{aligned} \boldsymbol S &=\frac{1}{N} \left [ \boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)\right ] \left [\boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)^{\top} \right ] \\ &=\frac{1}{N} \boldsymbol X^{\top}\boldsymbol H \boldsymbol H^{\top}\boldsymbol X \\ &=\frac{1}{N} \boldsymbol X^{\top}\boldsymbol H \boldsymbol X \tag{7} \end{aligned}

四. 協方差矩陣和散度矩陣關係

  • 散度矩陣 S1\boldsymbol S_1
    S1=i=1N(xim)(xim)(8) \boldsymbol S_1=\sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{m}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{m}\right)^{\top} \tag{8} 其中 m\boldsymbol{m} 爲樣本均值(就是上面的xˉ\bar{\boldsymbol x}) :m=1Nk=1Nxi=1NXI(9) \boldsymbol{m}=\frac{1}{N} \sum_{k=1}^{N} \boldsymbol{x}_{i}= \frac{1}{N} \boldsymbol X^{\top} \boldsymbol I \tag{9}
  • 我們可以發現協方差矩陣和散度矩陣相差前面一個1N\frac{1}{N}

五. PCA降維(最大投影方差角度)

  • 一箇中心:對原始特徵空間的重構(相關——>無關,原始特徵空間中的特徵之間有可能是相關的,比如用戶特徵:姓名,性別,年齡,學歷,學位,我們可以發現學歷和學位之間正相關,這2個屬性之間就是相關性的,對這些特徵空間進行重構,使其能夠變成一組相互正交(線性無關的基))。
  • 兩個基本點①. 最大投影方差;②. 最小重構距離(這2個其實是同一個意思,都是爲同一個中心服務的,相當於2個角度)
  • 拿到數據之後首先進行中心化(減去均值,中心化之後數據均值爲0),就是做一個平移,方便計算。
  • 對於 xi\boldsymbol{x}_{i} 這個樣本,中心化之後爲 xixˉ\boldsymbol{x}_{i}-\bar{\boldsymbol{x}},此時它在u1\boldsymbol u_1 這個方向上的投影爲:
    J=(xixˉ)u1s.t.u1=1(10)\begin{aligned} &J=(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}})^{\top} \boldsymbol u_{1}\\ &s.t. \quad\left\| \boldsymbol u_{1}\right\|=1 \tag{10} \end{aligned}

  • 對於 NN 個樣本點,投影方差(數)爲:
    J=1Ni=1N((xixˉ)u1)2s.t.u1u1=1(11)\begin{aligned} &J=\frac{1}{N} \sum_{i=1}^{N}\left((\boldsymbol{x}_{i}-\bar{\boldsymbol{x}})^{\top} \boldsymbol u_{1}\right)^{2} \\ &s.t. \quad \boldsymbol u_{1}^{\top}\boldsymbol u_{1}=1 \tag{11} \end{aligned}

  • 其中 JJ 爲:
    J=1Ni=1Nu1T(xixˉ)(xixˉ)Tu1=u1T[1Ni=1N(xixˉ)(xixˉ)T]u1=u1TSu1(12)\begin{aligned} J &=\frac{1}{N} \sum_{i=1}^{N} \boldsymbol u_{1}^{T}\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right) \cdot\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{T} \boldsymbol u_{1} \\ &=\boldsymbol u_{1}^{T} \left [\frac{1}{N} \sum_{i=1}^{N} \left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right) \cdot\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{T} \right ] \boldsymbol u_{1} \\ &=\boldsymbol u_{1}^{T} \boldsymbol S\boldsymbol u_{1} \tag{12} \end{aligned}

  • 我們要求的就是一個最大投方差,其實就是一個帶約束的優化問題,就是要找到這個方向 u1\boldsymbol u_{1}
    {u^1=arg maxu1Su1s.t.u1u1=1(13)\left\{\begin{array}{l} \hat{\boldsymbol u}_{1}=\argmax \boldsymbol u_{1}^{\top}\boldsymbol S \boldsymbol u_{1} \\ s.t. \quad \boldsymbol u_{1}^{\top}\boldsymbol u_{1}=1 \tag{13} \end{array}\right.

  • 求解使用拉格朗日乘子法:
    L(u1,λ)=u1Su1+λ(1u1u1)(14)\mathcal{L}\left(\boldsymbol u_{1}, \lambda\right)=\boldsymbol u_{1}^{\top}\boldsymbol S \boldsymbol u_{1}+\lambda\left(1- \boldsymbol u_{1}^{\top}\boldsymbol u_{1}\right)\tag{14}

  • 求偏導可以得到:
    Lu1=2Su12λu1(15)\frac{\partial \mathcal{L}}{\partial \boldsymbol u_{1}}=2\boldsymbol S \boldsymbol u_{1}-2\lambda \boldsymbol u_1\tag{15}

  • 令偏導數等於0可以得到:
    Su1=λu1(16)\boldsymbol S \boldsymbol u_{1}=\lambda \boldsymbol u_1\tag{16}

  • 到這裏已經求解完畢,可以明顯看出 λ\lambda 就是 S\boldsymbol S 的特徵值,u1\boldsymbol u_1 就是 S\boldsymbol S 的特徵向量。

六. PCA降維(最小重構距離角度)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章