機器學習複習part1

線性代數複習

表示方法：
1. （，，，） - 行向量
2. （；；；） - 列向量
乘法
矩陣轉置
$AI = A = IA \\ (A^T)^T = A\\ (AB)^T = B^TA^T\\ (A+B)^T =A^T+B^T$
矩陣求導
1. $f:R^{m \times n} \rightarrow R$
  $(\bigtriangledown_Af(A))_{ij} = \frac{\partial f(A)}{\partial A_{ij}}\\ \bigtriangledown_Af(A) \in R_{mn}$
  $e.g.:$ $f:R_M \rightarrow R$ and $f(z) = z^Tz$
  - 此時 $\bigtriangledown_zf(z)=2z$ 把 $z$ 當做變量
  - 但是另外一種情況是 $\bigtriangledown f(Ax)$ 如果看做一個整體時，同上即 $2Ax$ ,而如果單獨對於 $x$ 並不滿足上面的矩陣對應關係，此時應該是 $\bigtriangledown f(Ax) =\bigtriangledown_xg(x) \in R^n$ 實際造成不同的原因是變量不同。
2. 二次項平方項
  1. $x \in R^{n}$ and $f(x) = b^Tx$ and $b \in R^{n}$ and $f(x) = \sum_{i=1}^nb_ix_i$
    
    此時 $\bigtriangledown_xf(x) = b$
  2. $f(x) = x^TAx$ for $A \in S^n$
    
    此時 $\bigtriangledown_xf(x) =2 Ax$
  3. 常用
  $\bigtriangledown_xb^Tx = b\\ \bigtriangledown_xx^TAx = 2Ax\\ \bigtriangledown_x^2x^TAx = A(if A issymmetric )\\ A^T = A$
3. 最小平方項
  $||Ax-b||^2_2 = （Ax-b）^T(Ax-b)=\\ x^TA^TAx-2b^TAx+b^Tb \\ \bigtriangledown_x = 2A^TAx-2A^Tb$
矩陣的跡：
1. $trA=\sum_{i=1}^nA_{ii}$
2. 當 $A \in R^{n \times n}$ 時，滿足一些線性性質
矩陣的秩
1. for $A \in R^{m \times n},rank(A) <= min{(m,n)}$ ,if $rank(A)=min{(m,n)}$ ,then it is full rank
求逆
1. $A^{-1}A=I=AA^{-1}$
2. 沒有逆矩陣的情況：
  1. 不是方陣
  2. 不是滿秩（full rank）
特徵值求解：
補充求導:

線性模型複習

基本模型
$f(\mathbf{x}) =\mathbf{w}^T \mathbf{x} +b$
其中 $x$ 表示 $(x_1;x_2;x_3;......x_d)$ ， $w$ 表示 $(w_1,w_2,w_3......w_d)$ ， $b$ 是一個常數

線性迴歸

屬性只有一個的時候

假設模型如上 $\mathbf{w},b$ 爲待定參數
構建目標函數：均方誤差
求解：最小二乘法
$(w^*,b^*) = argmin_{w,b}\sum_{i=1}^n(f(x_i)-y_i)^2$
求導（前提是目標函數爲凸函數，所以當導數等於零的時候取的最優解）
$\frac{\partial E(w,b)}{\partial w} = 2(w\sum x_i^2-\sum(y_i-b)x_i) \\ \frac{\partial E(w,b)}{\partial b} = 2(mb-\sum(y_i-wx_i) \\ w = \frac{\sum y_i(x_i-\bar{x})}{\sum x_i^2-\frac{1}{m}(\sum x_i^2)^2} \\ b= \frac{1}{m}\sum (y_i-wx_i)$

多屬性時：（多元線性迴歸）

數據說明：
1. $\hat{\mathbf{w}}=(\mathbf{w};b)$ 把b引入，更好計算，此時爲一個（d+1）維的列向量
2. 數據集： $\mathbf{X}$

$\begin{matrix} x_{11}&x_{12}&...x_{1d}&1\\ x_{21}&x_{22}&...x_{2d}&1\\ ...&...&...&1\\ x_{m1}&x_{m2}&...x_{md}&1\\ \end{matrix} = \begin{matrix} \mathbf{x_1^T}&1\\ \mathbf{x_2^T}&1\\ ...&1\\ \mathbf{x_m^T}&1\\ \end{matrix}$

此時
$\mathbf{y}=\mathbf{X}\hat{\mathbf{w}}$
而對於單獨的一個 $\mathbf{y} =(y_1;y_2,...y_m)$
$y_i =f(\mathbf{x}) =\mathbf{w}^T \mathbf{x} +b$

$E(\hat{\mathbf{w}})= (\mathbf{y}-\mathbf{X}\hat{\mathbf{w}})^T(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}})$

求導
$\frac{\partial E}{\partial \mathbf{w}} =2\mathbf{X}^T(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}}) \\ \mathbf{\hat{w}}^* = (X^TX)^{-1}X^Ty$

tips:若 $X^TX$ 並非列滿秩矩陣:引入正則項：
$E=(y-X\hat{w})^T(y-X\hat{w})+\lambda ||w||^2\\ (\lambda>0)\\ \mathbf{\hat{w}}^* = (X^TX+\lambda I)^{-1}X^Ty$

得到後的應用：
1. 迴歸和分類的區別可以理解爲，分類爲離散，迴歸爲連續，但是同時迴歸可以作爲概率轉換爲分類。
2. 由上，在二分類問題如果labels(0,1)可以理解爲0.5爲分界線。劃分兩類問題。如果標籤值不是直接分類的標識，轉爲線性分類問題。
3. 廣義線性模型

$y=g(w^Tx+b) \\ g^{-1}(y)=w^Tx+b$

線性分類

對數機率迴歸

把線性擬合轉化爲0-1分類(y表示看做正類的概率)

$y=\frac{1}{1+e^{-z}}$

轉爲爲線性模型（即）

$ln(\frac{y}{1-y})=w^Tx+b$

構建對數似然函數：
1. 概率表示：

$p(y=1|x) =\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}$

$p(y=0|x) =\frac{1}{1+e^{w^Tx+b}}$

對數似然函數：

$l(w,b)=\sum_{i=1}^n lnp(y=j|x_i,w,b);$
$p(y=j|x_i,w,b)=y_ip(y_i=1|x_i,w,b)+(1-y_i)y(y_i=0|x_i,w,b)$

$l(w,b)=\sum_{i=1}^n[y_i(w^Tx_i+b)-ln(1+e^{w^Tx_i+b})]$

凸優化，梯度下降法：
$w^{t+1}=w^t-\lambda\triangle w=w^t-\lambda \frac{\partial l}{\partial w} |_{w=w^t,b=b^t} \\ b^{t+1}=b^t-\lambda\triangle b=b^t-\lambda \frac{\partial l}{\partial b} |_{w=w^t,b=b^t}\\ \frac{\partial l}{\partial w}=-\sum[x_iy_i-x_ip(y_i=1|x_i,w,b)]\\ \frac{\partial l}{\partial b}=-\sum[y_i-p(y_i=1|x_i,w,b)]$
```
    while step < max_step:
        dw = np.zeros(sample_dim,float)
        db = 0.0
        step +=1

        for i in range(sample_num):
            xi,yi = train_sample[i],train_label[i]

            pi = 1 - 1/(1+np.exp(np.dot(w,xi)+b))
            dw +=(xi*yi - xi*pi)
            db +=(yi - pi)
        dw =-dw
        db =-db
        w -= learning_rate*dw
        b -= learning_rate*db
    self.w =w
    self.b =b
```
分類:判斷哪個概率大即是哪個類

線性判別分析（LDA）

核心思想：同類儘可能近，異類儘可能遠（監督降維算法-投影到直線）

數據集 ${(\mathbf{x_i},y)}_{i=1}^n$ 二分類問題
投影前的每一類的均值&協方差矩陣：

$\mathbf{u_0}=\frac{1}{n_0}\sum_{y_i=0}x_i\\ \Sigma_0 = \frac{1}{n_0-1}\sum_{y_i=0}x_ix_i^T\\$

投影后：(投影到直線均爲實數)

$\hat{u_0}=w^Tu_0\\ \hat{\Sigma_0}=w^T\Sigma_1w$

最大化目標函數：

$J=\frac{w^TS_bw}{w^TS_ww}\\ S_w=\Sigma_0+\Sigma_1 \\ S_b=(u_0-u_1)(u_0-u_1)^T \\$

等價表示：
$min -w^TS_bw\\ s.t. w^TS_ww=1\\ L=-w^TS_bw+\lambda(w^TS_ww-1)\\ \frac{\partial L}{\partial w} \\ w^*=S_{w}^{-1}(u_0-u_1)$

支持向量機

線性可分問題

劃分超平面：

$w^Tx+b=0$

最大化間隔即
$max_{w,b}\frac{2}{||w||}\\ s.t.y_i(w^Tx_i+b)>=1$
等效於
$min_{w,b}\frac{1}{2}{||w||}^2\\ s.t.y_i(w^Tx_i+b)>=1$
是一個凸優化問題

對偶問題（求解）:

拉格朗日函數

$L=\frac{1}{2}{||w||}^2-\sum_{i=1}^n\alpha(y_i(w^Tx_i+b)-1)$

求偏導爲零

$w=\sum\alpha_iy_ix_i,\sum\alpha_iy_i=0$

回代：

$min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum\alpha_i\\ s.t.\sum\alpha_iy_i=0,\alpha_i>=0$

對偶問題求解（SMO）:

選取一對需要更新的 $\alpha_i,\alpha_j$
固定除了上面以爲的參數求解
- 僅考慮選定的參數：約束變爲
$\alpha_iy_i+\alpha_jy_j =-\sum_{k\neq i,j}\alpha_ky_k$
- 此時兩個等式，一個單變量的二次規劃，具有閉式解。（捨棄負數）
求b:支持向量方程 $y_if(x_i)=1$

最終判定： $y=sign[f(x_i)]$

非線性可分問題

引入鬆弛變量

$min_{w,b}\frac{1}{2}{||w||}^2+C\sum\xi_i\\ s.t.y_i(w^Tx_i+b)>=1-\xi_i\\ \xi_i\geq0$

類似上面
特徵映射
- 原始問題
$min_{w,b}\frac{1}{2}{||w||}^2\\ s.t.y_i(w^T\Phi (x_i)+b)>=1$
- 對偶問題

$min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\Phi (x_i)^T\Phi (x_j)-\sum\alpha_i\\ s.t.\sum\alpha_iy_i=0,\alpha_i>=0$

核函數

因爲 $w=\sum\alpha_iy_ix_i,$ 代入即最終
$f(x)=\sum\alpha_iy_i\Phi(x_i)^T\Phi(x)+b$
定義核函數 $k:R^d\times R^d \rightarrow R,k(x,y)=\Phi(x)^T\Phi(y)$
- 對稱
- 半正定
核矩陣：核函數的採樣矩陣。

貝葉斯

基本數學公式(貝葉斯公式)

$P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)}=\\ \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\bar{A})P(\bar{A})}$

貝葉斯決策論

最優決策：使風險最小化

$R =P(c_1|B)\lambda_{21}+P(c_2|B)\lambda_{12}$

其中 $P(c_1|B)$ 爲實際爲 $c_1$ 的概率（以下對於0,1損失分類）

極大似然法：

樸素貝葉斯分類器：（假設特徵之間互不相關）

連續：一般高斯分佈，極大似然法求參數
離散：直接數並計算

機器學習複習part1

機器學習複習part1

線性代數複習

線性模型複習

線性迴歸

線性分類

對數機率迴歸

線性判別分析（LDA）

支持向量機

線性可分問題

非線性可分問題

貝葉斯

基本數學公式(貝葉斯公式)

貝葉斯決策論

leetcode-LinkedList

leetcode-DP

JAVA-常用數據結構

leetcode-圖

leetcode-樹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結