線性迴歸 linear regression 原理及推導

原創

木杉Vincent

2020-06-10 15:53

概述

優點：容易計算，易於理解和實現
缺點：容易欠擬合
適用數據類型：數值型和標稱型

口頭描述

線性迴歸試圖構造一個線性函數，去擬合儘可能多的樣本點。重點是如何確定線性函數的參數，使得該函數儘量穿過樣本點，一般使用均方誤差最小化來作爲參數擬合效果的標準。

算法推導（解方程的方法）

給定訓練數據集 $D=\{(x_i,y_i)\}_{i=1}^m$ ,樣本 $x_i$ 由 $d$ 個屬性描述，線性模型爲:
$f_\omega(x)=\omega^Tx+b \; ,\;f(x) \backsimeq y$
使用均方誤差衡量 $f(x)$ 與 $y$ 之間的差別，我們的目標是使他們的差別最小化。
$E_s(square \; loss)=\sum_{i=1}^{m}(f(x_i)-y_i)^2$
使用矩陣進行表達
- 參數向量矩陣：
  $\hat{\omega}=(\omega ;b)= \begin{bmatrix} \omega_1 \\ \omega_2\\ ... \\ \omega_d \\ b \end{bmatrix}$
  注意: $\hat{\omega}$ 是 $d+1$ 行 $1$ 列的
- 數據集矩陣：
  $X=\begin{bmatrix} x_{11}&x_{12}&\dots&x_{1d}&1 \\ x_{21}&x_{22}&...&x_{2d}&1 \\ \vdots&\vdots&\ddots& \vdots&\vdots\\ x_{m1}&x_{m2}& \dots&x_{md}&1 \end{bmatrix} =\begin{bmatrix} x_1^T&1 \\ x_2^T&1 \\ \vdots&\vdots \\ x_m^T&1 \end{bmatrix}$
  注意：最後一列全是1，前d個元素對應樣本的d個屬性值
- 標記矩陣:
  $y=\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix}$
則均方誤差爲：
$E_s=(y-X\hat{\omega})^T(y-X\hat{\omega})$
令 $E_{\hat{\omega}}= (y-X\hat{\omega})^T(y-X\hat{\omega})$ ,對 $\hat{\omega}$ 求導得：
$\frac{\partial E_{\hat{\omega}}}{\partial \hat{\omega}}=2X^T(X\hat{\omega}-y)$
令上式爲零可得 $\hat{\omega}$ 的最優解的閉式解
$\hat{\omega}^*=(X^TX)^{-1}X^Ty$
解出上式，也就得到了模型的公式：
$f(\hat{x_i})=\hat{x_i}^T(X^TX)^{-1}X^Ty$
其中，
$\hat{x_i}= \begin{bmatrix} x_{i1}\\ x_{i2}\\ \vdots \\ x_{id} \\ 1 \end{bmatrix}$

算法推導（梯度下降）

目標是使均方誤差最小化，即：
$min \;E(square \; loss)=\frac{1}{2m}\sum_{i=1}^{m}(f_{\hat{\omega}}(x_i)-y_i)^2$
這裏的 $\frac{1}{2m}$ 是爲了方便求偏導

對誤差函數做偏導,對於每個特徵( $\omega ^n$ )，其梯度（偏導）爲：
$\frac{\partial E}{\partial \omega^n}=\frac{1}{m}\sum_{i=1}^{m}(f_{\hat{\omega}} (x_i)-y_i)\cdot x^n_i$
這裏是對每一個特徵進行了求導，因爲
$f_{\hat{\omega}}(x_i)=\omega ^0x^0_i +\omega^1x^1_i+\dots+\omega^nx^n_i\;\;\;(x_i:the \; i^{th} \; data)$
則梯度下降的流程就是：

重複此過程直到收斂 {

$\omega^0:=\omega^0-\alpha \frac{1}{m}\sum_{i=1}^{m}(f_{\hat{\omega}} (x_i)-y_i)\cdot x^0_i$
$\omega^1:=\omega^1-\alpha \frac{1}{m}\sum_{i=1}^{m}(f_{\hat{\omega}} (x_i)-y_i)\cdot x^1_i$
$\vdots$
$\omega^n:=\omega^n-\alpha \frac{1}{m}\sum_{i=1}^{m}(f_{\hat{\omega}} (x_i)-y_i)\cdot x^n_i$
}

解釋一下， $\sum_{i=1}^{m}(f_{\hat{\omega}} (x_i)-y_i)$ 的意思是計算每個預測值與實際值的差別的總和。另外，對每個 $\omega^i$ 進行更新都是獨立的，應當把所有的 $\omega^i$ 全部計算出來後再對其進行賦值更新。

$X^TX$ 的要求

當矩陣 $X^TX$ 是滿秩矩陣的時候，上述最優解成立，但是很多情況下 $X^TX$ 往往不是滿秩矩陣，此時可以解出 $\hat{\omega}$ ,他們都能使均方誤差最小化，選擇哪一個作爲輸出，將由學習算法的歸納偏好決定，常見的做法是引入正則化項。

對數線性迴歸

我們希望迴歸模型去逼近 $ln\;y$ 不是 $y$ 時，模型變爲
$ln\; y=\omega^Tx+b$
這就是對數線性迴歸

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

線性迴歸 linear regression 原理及推導

概述

口頭描述

算法推導（解方程的方法）

算法推導（梯度下降）

$X^TX$ 的要求

對數線性迴歸

Windows下C++使用thread時無法識別thread和mutex相關庫的解決

DNS新記錄插入圖解和總結

TCP擁塞控制總結圖

MATLAB 實現zigzag掃描（z字形掃描）

LeetCode 2：Add Two Numbers解題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

線性迴歸 linear regression 原理及推導

概述

口頭描述

算法推導（解方程的方法）

算法推導（梯度下降）

XTXX^TXXTX的要求

對數線性迴歸

$X^TX$ 的要求