機器學習複習part1

機器學習複習part1

線性代數複習

  1. 表示方法:

    1. (,,,) - 行向量
    2. (;;;) - 列向量
  2. 乘法

  3. 矩陣轉置
    AI=A=IA(AT)T=A(AB)T=BTAT(A+B)T=AT+BT AI = A = IA \\ (A^T)^T = A\\ (AB)^T = B^TA^T\\ (A+B)^T =A^T+B^T

  4. 矩陣求導

    1. f:Rm×nRf:R^{m \times n} \rightarrow R
      (Af(A))ij=f(A)AijAf(A)Rmn (\bigtriangledown_Af(A))_{ij} = \frac{\partial f(A)}{\partial A_{ij}}\\ \bigtriangledown_Af(A) \in R_{mn}
      e.g.:e.g.: f:RMRf:R_M \rightarrow R and f(z)=zTzf(z) = z^Tz

      • 此時zf(z)=2z\bigtriangledown_zf(z)=2zzz 當做變量
      • 但是另外一種情況是f(Ax)\bigtriangledown f(Ax) 如果看做一個整體時,同上即2Ax2Ax,而如果單獨對於xx 並不滿足上面的矩陣對應關係,此時應該是f(Ax)=xg(x)Rn\bigtriangledown f(Ax) =\bigtriangledown_xg(x) \in R^n 實際造成不同的原因是變量不同 。
    2. 二次項平方項

      1. xRnx \in R^{n} and f(x)=bTxf(x) = b^Tx and bRnb \in R^{n} and f(x)=i=1nbixif(x) = \sum_{i=1}^nb_ix_i

        此時 xf(x)=b\bigtriangledown_xf(x) = b

      2. f(x)=xTAxf(x) = x^TAx for ASnA \in S^n

        此時xf(x)=2Ax\bigtriangledown_xf(x) =2 Ax

      3. 常用

      xbTx=bxxTAx=2Axx2xTAx=A(ifAissymmetric)AT=A \bigtriangledown_xb^Tx = b\\ \bigtriangledown_xx^TAx = 2Ax\\ \bigtriangledown_x^2x^TAx = A(if A issymmetric )\\ A^T = A

    3. 最小平方項
      Axb22=AxbT(Axb)=xTATAx2bTAx+bTbx=2ATAx2ATb ||Ax-b||^2_2 = (Ax-b)^T(Ax-b)=\\ x^TA^TAx-2b^TAx+b^Tb \\ \bigtriangledown_x = 2A^TAx-2A^Tb

  5. 矩陣的跡:

    1. trA=i=1nAiitrA=\sum_{i=1}^nA_{ii}
    2. ARn×nA \in R^{n \times n}時,滿足一些線性性質
  6. 矩陣的秩

    1. for ARm×n,rank(A)<=min(m,n)A \in R^{m \times n},rank(A) <= min{(m,n)},if rank(A)=min(m,n)rank(A)=min{(m,n)},then it is full rank
  7. 求逆

    1. A1A=I=AA1A^{-1}A=I=AA^{-1}
    2. 沒有逆矩陣的情況:
      1. 不是方陣
      2. 不是滿秩(full rank)
  8. 特徵值求解:

  9. 補充求導:

img

img

img

img


線性模型複習

基本模型
f(x)=wTx+b f(\mathbf{x}) =\mathbf{w}^T \mathbf{x} +b
其中xx 表示(x1;x2;x3;......xd)(x_1;x_2;x_3;......x_d)ww 表示(w1,w2,w3......wd)(w_1,w_2,w_3......w_d)bb 是一個常數

線性迴歸

  • 屬性只有一個的時候
  1. 假設模型如上w,b\mathbf{w},b 爲待定參數

  2. 構建目標函數:均方誤差

  3. 求解:最小二乘法
    (w,b)=argminw,bi=1n(f(xi)yi)2 (w^*,b^*) = argmin_{w,b}\sum_{i=1}^n(f(x_i)-y_i)^2
    求導(前提是目標函數爲凸函數,所以當導數等於零的時候取的最優解)
    E(w,b)w=2(wxi2(yib)xi)E(w,b)b=2(mb(yiwxi)w=yi(xixˉ)xi21m(xi2)2b=1m(yiwxi) \frac{\partial E(w,b)}{\partial w} = 2(w\sum x_i^2-\sum(y_i-b)x_i) \\ \frac{\partial E(w,b)}{\partial b} = 2(mb-\sum(y_i-wx_i) \\ w = \frac{\sum y_i(x_i-\bar{x})}{\sum x_i^2-\frac{1}{m}(\sum x_i^2)^2} \\ b= \frac{1}{m}\sum (y_i-wx_i)

  • 多屬性時:(多元線性迴歸)
  1. 數據說明:

    1. w^=(w;b)\hat{\mathbf{w}}=(\mathbf{w};b) 把b引入,更好計算,此時爲一個(d+1)維的列向量

    2. 數據集:X\mathbf{X}

x11x12...x1d1x21x22...x2d1.........1xm1xm2...xmd1=x1T1x2T1...1xmT1 \begin{matrix} x_{11}&x_{12}&...x_{1d}&1\\ x_{21}&x_{22}&...x_{2d}&1\\ ...&...&...&1\\ x_{m1}&x_{m2}&...x_{md}&1\\ \end{matrix} = \begin{matrix} \mathbf{x_1^T}&1\\ \mathbf{x_2^T}&1\\ ...&1\\ \mathbf{x_m^T}&1\\ \end{matrix}

  1. 此時
    y=Xw^ \mathbf{y}=\mathbf{X}\hat{\mathbf{w}}
    而對於單獨的一個y=(y1;y2,...ym)\mathbf{y} =(y_1;y_2,...y_m)
    yi=f(x)=wTx+b y_i =f(\mathbf{x}) =\mathbf{w}^T \mathbf{x} +b

E(w^)=(yXw^)T(yXw^) E(\hat{\mathbf{w}})= (\mathbf{y}-\mathbf{X}\hat{\mathbf{w}})^T(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}})

​ 求導
Ew=2XT(yXw^)w^=(XTX)1XTy \frac{\partial E}{\partial \mathbf{w}} =2\mathbf{X}^T(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}}) \\ \mathbf{\hat{w}}^* = (X^TX)^{-1}X^Ty

​ tips:若XTXX^TX並非列滿秩矩陣:引入正則項:
E=(yXw^)T(yXw^)+λw2(λ>0)w^=(XTX+λI)1XTy E=(y-X\hat{w})^T(y-X\hat{w})+\lambda ||w||^2\\ (\lambda>0)\\ \mathbf{\hat{w}}^* = (X^TX+\lambda I)^{-1}X^Ty

  1. 得到後的應用:
    1. 迴歸和分類的區別可以理解爲,分類爲離散,迴歸爲連續,但是同時迴歸可以作爲概率轉換爲分類。
    2. 由上,在二分類問題如果labels(0,1)可以理解爲0.5爲分界線。劃分兩類問題。如果標籤值不是直接分類的標識,轉爲線性分類問題。
    3. 廣義線性模型

y=g(wTx+b)g1(y)=wTx+b y=g(w^Tx+b) \\ g^{-1}(y)=w^Tx+b

線性分類


對數機率迴歸

  1. 把線性擬合轉化爲0-1分類(y表示看做正類的概率)

y=11+ez y=\frac{1}{1+e^{-z}}

  1. 轉爲爲線性模型(即)

ln(y1y)=wTx+b ln(\frac{y}{1-y})=w^Tx+b

  1. 構建對數似然函數:

    1. 概率表示:

p(y=1x)=ewTx+b1+ewTx+bp(y=1|x) =\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}

p(y=0x)=11+ewTx+bp(y=0|x) =\frac{1}{1+e^{w^Tx+b}}

  1. 對數似然函數:

l(w,b)=i=1nlnp(y=jxi,w,b);l(w,b)=\sum_{i=1}^n lnp(y=j|x_i,w,b);
p(y=jxi,w,b)=yip(yi=1xi,w,b)+(1yi)y(yi=0xi,w,b)p(y=j|x_i,w,b)=y_ip(y_i=1|x_i,w,b)+(1-y_i)y(y_i=0|x_i,w,b)

l(w,b)=i=1n[yi(wTxi+b)ln(1+ewTxi+b)]l(w,b)=\sum_{i=1}^n[y_i(w^Tx_i+b)-ln(1+e^{w^Tx_i+b})]

  1. 凸優化,梯度下降法:
    wt+1=wtλw=wtλlww=wt,b=btbt+1=btλb=btλlbw=wt,b=btlw=[xiyixip(yi=1xi,w,b)]lb=[yip(yi=1xi,w,b)] w^{t+1}=w^t-\lambda\triangle w=w^t-\lambda \frac{\partial l}{\partial w} |_{w=w^t,b=b^t} \\ b^{t+1}=b^t-\lambda\triangle b=b^t-\lambda \frac{\partial l}{\partial b} |_{w=w^t,b=b^t}\\ \frac{\partial l}{\partial w}=-\sum[x_iy_i-x_ip(y_i=1|x_i,w,b)]\\ \frac{\partial l}{\partial b}=-\sum[y_i-p(y_i=1|x_i,w,b)]

        while step < max_step:
            dw = np.zeros(sample_dim,float)
            db = 0.0
            step +=1
    
            for i in range(sample_num):
                xi,yi = train_sample[i],train_label[i]
    
                pi = 1 - 1/(1+np.exp(np.dot(w,xi)+b))
                dw +=(xi*yi - xi*pi)
                db +=(yi - pi)
            dw =-dw
            db =-db
            w -= learning_rate*dw
            b -= learning_rate*db
        self.w =w
        self.b =b
  2. 分類:判斷哪個概率大即是哪個類

線性判別分析(LDA)

核心思想:同類儘可能近,異類儘可能遠(監督降維算法-投影到直線)

  1. 數據集(xi,y)i=1n{(\mathbf{x_i},y)}_{i=1}^n 二分類問題
  2. 投影前的每一類的均值&協方差矩陣:

u0=1n0yi=0xiΣ0=1n01yi=0xixiT \mathbf{u_0}=\frac{1}{n_0}\sum_{y_i=0}x_i\\ \Sigma_0 = \frac{1}{n_0-1}\sum_{y_i=0}x_ix_i^T\\

  1. 投影后:(投影到直線均爲實數)

u0^=wTu0Σ0^=wTΣ1w \hat{u_0}=w^Tu_0\\ \hat{\Sigma_0}=w^T\Sigma_1w

  1. 最大化目標函數:

J=wTSbwwTSwwSw=Σ0+Σ1Sb=(u0u1)(u0u1)T J=\frac{w^TS_bw}{w^TS_ww}\\ S_w=\Sigma_0+\Sigma_1 \\ S_b=(u_0-u_1)(u_0-u_1)^T \\

​ 等價表示:
minwTSbws.t.wTSww=1L=wTSbw+λ(wTSww1)Lww=Sw1(u0u1) min -w^TS_bw\\ s.t. w^TS_ww=1\\ L=-w^TS_bw+\lambda(w^TS_ww-1)\\ \frac{\partial L}{\partial w} \\ w^*=S_{w}^{-1}(u_0-u_1)

支持向量機

線性可分問題

  1. 劃分超平面:

wTx+b=0 w^Tx+b=0

​ 最大化間隔即
maxw,b2ws.t.yi(wTxi+b)&gt;=1 max_{w,b}\frac{2}{||w||}\\ s.t.y_i(w^Tx_i+b)&gt;=1
​ 等效於
minw,b12w2s.t.yi(wTxi+b)&gt;=1 min_{w,b}\frac{1}{2}{||w||}^2\\ s.t.y_i(w^Tx_i+b)&gt;=1
​ 是一個凸優化問題

  1. 對偶問題(求解):
  • 拉格朗日函數

L=12w2i=1nα(yi(wTxi+b)1) L=\frac{1}{2}{||w||}^2-\sum_{i=1}^n\alpha(y_i(w^Tx_i+b)-1)

  • 求偏導爲零

w=αiyixi,αiyi=0 w=\sum\alpha_iy_ix_i,\sum\alpha_iy_i=0

  • 回代:

minα12i=1nj=1nαiαjyiyjxiTxjαis.t.αiyi=0,αi&gt;=0 min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum\alpha_i\\ s.t.\sum\alpha_iy_i=0,\alpha_i&gt;=0

  1. 對偶問題求解(SMO):
  • 選取一對需要更新的αi,αj\alpha_i,\alpha_j

  • 固定除了上面以爲的參數求解

    • 僅考慮選定的參數:約束變爲

    αiyi+αjyj=ki,jαkyk \alpha_iy_i+\alpha_jy_j =-\sum_{k\neq i,j}\alpha_ky_k

    • 此時兩個等式,一個單變量的二次規劃,具有閉式解。(捨棄負數)
  • 求b:支持向量方程yif(xi)=1y_if(x_i)=1

  1. 最終判定:y=sign[f(xi)]y=sign[f(x_i)]

非線性可分問題

  1. 引入鬆弛變量

minw,b12w2+Cξis.t.yi(wTxi+b)&gt;=1ξiξi0 min_{w,b}\frac{1}{2}{||w||}^2+C\sum\xi_i\\ s.t.y_i(w^Tx_i+b)&gt;=1-\xi_i\\ \xi_i\geq0

  1. 類似上面

  2. 特徵映射

    • 原始問題

    minw,b12w2s.t.yi(wTΦ(xi)+b)&gt;=1 min_{w,b}\frac{1}{2}{||w||}^2\\ s.t.y_i(w^T\Phi (x_i)+b)&gt;=1

    • 對偶問題

minα12i=1nj=1nαiαjyiyjΦ(xi)TΦ(xj)αis.t.αiyi=0,αi&gt;=0 min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\Phi (x_i)^T\Phi (x_j)-\sum\alpha_i\\ s.t.\sum\alpha_iy_i=0,\alpha_i&gt;=0

  • 核函數

    ​ 因爲w=αiyixi,w=\sum\alpha_iy_ix_i,代入即最終
    f(x)=αiyiΦ(xi)TΦ(x)+b f(x)=\sum\alpha_iy_i\Phi(x_i)^T\Phi(x)+b
    ​ 定義核函數k:Rd×RdR,k(x,y)=Φ(x)TΦ(y)k:R^d\times R^d \rightarrow R,k(x,y)=\Phi(x)^T\Phi(y)

    • 對稱
    • 半正定
  • 核矩陣:核函數的採樣矩陣。


貝葉斯

基本數學公式(貝葉斯公式)

P(AB)=P(A,B)P(B)=P(BA)P(A)P(B)=P(BA)P(A)P(BA)P(A)+P(BAˉ)P(Aˉ) P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)}=\\ \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\bar{A})P(\bar{A})}

貝葉斯決策論

最優決策:使風險最小化

R=P(c1B)λ21+P(c2B)λ12R =P(c_1|B)\lambda_{21}+P(c_2|B)\lambda_{12}

其中P(c1B)P(c_1|B)爲實際爲c1c_1的概率 (以下對於0,1損失分類)

1544704969741

  • 極大似然法:

樸素貝葉斯分類器:(假設特徵之間互不相關)

  • 連續:一般高斯分佈,極大似然法求參數

  • 離散:直接數並計算

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章