項目地址：https://github.com/Daya-Jin/ML_for_learner/blob/master/linear_model/LinearRegression.ipynb
原博客：https://daya-jin.github.io/2018/09/23/LinearRegression/

模型概述

假定有一組數據 $X$ 與 $Y$ ，其中

$X= \left[ \begin{matrix} x^{(1)} \\ x^{(2)} \\ \vdots \\ x^{(m)} \\ \end{matrix} \right]$

$X$ 總共包含 $m$ 條數據，而每條數據 $x^{(i)}$ 又可表示爲：

$x^{(i)}= \left[ \begin{matrix} x^{i}_{1} & x^{i}_{2} & \cdots & x^{i}_{n} \end{matrix} \right]$

$Y$ 是一組向量，具體展開爲：

$Y= \left[ \begin{matrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)} \\ \end{matrix} \right]$

$y^{i}$ 爲連續型數值，如果需要使用 $x^{i}$ 的值來擬合 $y^{i}$ ，最簡單的模型就是如下形式的線性模型：

$\begin{aligned} \hat{y}^{(i)} &= \theta_{0}+\theta_{1}x^{(i)}_{1}+...+\theta_{n}x^{(i)}_{n} \\ &= x^{(i)}\theta^{T} \\ \end{aligned}$

當我們使用一個線性模型去擬合數據時，我們就默認假定了 $y^{i}$ 是服從線性分佈的，再引入一個隨機誤差項，可得真實數據值得表達式爲：

$y^{(i)}=f(x^{(i)})+\epsilon^{(i)}$

$\epsilon$ 是一個完全隨機噪聲，與數據中的 $X$ 與 $Y$ 都沒有關係，也被叫做不可規約誤差(irreducible error)。我們的任務就是使用 $\hat{f}(x)=X\theta^{T}$ 去擬合 $f(x)$ ， $\hat{f}(x)$ 與 $f(x)$ 之間的誤差稱爲可規約誤差(reducible error)。

再假設噪聲 $\epsilon^{(i)}$ 服從正態分佈 $\epsilon \sim N(0, \sigma^{2})$ ，那麼在完美擬合的條件下，有 $y^{(i)} \sim N(x^{(i)}\theta^{T},\sigma^{2})$ ：

$p(y^{i}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\hat{y}^{(i)})^{2}}{2\sigma^{2}})$

那麼，對於參數 $\theta$ 的似然函數爲：

$\begin{aligned} L(\theta) &= \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta) \\ &= \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\hat{y}^{(i)})^{2}}{2\sigma^{2}}) \\ \end{aligned}$

其對數似然函數爲：

$\begin{aligned} l(\theta) &= \ln{L(\theta)}\\ &= \sum_{i=1}^m [\ln{\frac{1}{\sqrt{2\pi}\sigma}}-\frac{(y^{(i)}-\hat{y}^{(i)})^{2}}{2\sigma^{2}}] \\ &= m\ln{\frac{1}{\sqrt{2\pi}\sigma}}-\frac{1}{2\sigma^{2}}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^{2} \end{aligned}$

最大化似然函數等價於最小化下面的式子：

$J(\theta)=\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^{2}$

一些前提假設

各特徵之間相互獨立

現在以二元情況爲例，再仔細看一下linear regression模型的表達式：

$\hat{y}=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}$

注意，在這裏其實還有一個隱藏的前提假設，即 $x_{1}$ 與 $x_{2}$ 無關(相互獨立)。如果在某一情景下，這兩個特徵之間本來就存在着關係，如 $x_{2}=f(x_{1})$ 這樣的關係，那麼上述模型的表達式就不準確。那麼準確的linear regression模型表達式應爲：

$\begin{aligned} \hat{y}&=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}(x_{1}x_{2}) \\ &=\theta_{0}+\theta_{1}x_{1}+(\theta_{2}+\theta_{3}x_{1})x_{2} \end{aligned}$

其中， $x_{1}x_{2}$ 稱爲交互項，代表的是一個線性關係。

原特徵與目標變量服從一元線性關係

可以加入已有特徵的高次項使得模型能夠捕獲非線性關係，如：

$\begin{aligned} \hat{y}&=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{1}^{2} \\ &=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}^{2} \end{aligned}$

這叫做polynomial regression，本質上還是一個linear regression。

誤差項之間相互獨立

一般來說會認爲各樣本之間的預測誤差 $\epsilon_{i}$ 與 $\epsilon_{j}$ 之間是沒有關聯的，但是在時序數據中，相鄰時間點的樣本誤差可能會存在聯繫。

如下圖是一幅殘差與時序的關係圖，可以看到殘差的分佈與時間並無關係，模型的殘差是隨機分佈的：

但是再看下圖，殘差與時間的關係中具有一定的模式，相鄰時間點的樣本殘差很相似，就說明殘差之間是有關係的：

誤差項的方差爲常數

在建立線性模型時，假設了真實數據中的噪聲分佈是服從正態分佈 $\epsilon \sim N(0, \sigma^{2})$ 的，分佈的方差爲一常數 $\sigma^{2}$ 。但在實際中，預測值與真實值之間的誤差分佈方差不是一個常數，而是會隨着 $Y$ 的增大而增大，從直觀上來說就是目標值越大則越難預測準，此時的殘差與 $Y$ 的關係如下圖所示：

那麼，爲了抑制誤差項的方差，解決的方法也很簡單，想辦法抑制目標變量 $Y$ 的取值範圍即可，可以通過凹函數變換，如 $\sqrt{Y}$ 或 $\log(Y)$ 來處理目標變量。

理想數據集無異常值

在真實數據集中，會因爲各種原因而引入異常數據，而異常數據又會影響模型對已有數據的擬合。那麼可以通過繪製studentized residual與 $Y$ 的關係圖來判斷異常數據點。其中studentized residual的計算方式爲 $\frac{\epsilon_{i}}{\sigma}$ ，該指標實際上就是用於檢測各樣本的殘差是否符合正態分佈，若某樣本的studentized residual不在 $[-3,3]$ 區間內，則基本可以斷定該樣本點爲異常點。

每個樣本點對模型參數的貢獻是均勻的

之前的敘述都是假設模型的參數 $\theta$ 是由所有樣本點共同產生貢獻而得出的，並且每個樣本點對參數所作的貢獻也相差無幾。如果數據集中存在某幾個點，能夠對模型的最終參數產生很大的影響甚至是決定性影響，那麼這些樣本點就叫做槓桿支點(high leverage points)。

優化策略

梯度下降法

我們對需要優化的參數 $\theta$ 進行隨機初始化，然後我們使用每次向着最優解行進一小步的策略來實現多次迭代找到最優解。這裏用到的原理就是梯度的概念，目標函數對於參數的梯度實際上就是指向極值的方向，於是使用下面公式來更新參數 $\theta$ ：

$\theta:=\theta-\alpha\nabla_{\theta}{J(\theta)}$

均方誤差公式的求導太過簡單，這裏不再寫出。

梯隊下降法的優劣

梯度下降法的優點在於：

計算簡單
參數更新的方向始終是朝着最優解或次優解

缺點是：

如果目標函數是非凸的，算法可能陷入一個局部最優解
每次計算梯度都必須使用整個訓練數據集，空間開銷大

梯度下降法還存在幾個變種，分別是：

分批梯度下降：每次計算梯度只使用一小批數據
隨機梯度下降：每次計算梯度只使用一條數據

這兩個變種都能適當彌補原始梯度下降法的缺陷。

實現指導

完整代碼

正規方程

線性迴歸的方程可寫爲：

$\hat{Y}=X\theta^{T}$

損失函數爲：

$\begin{aligned} MSE&=\sum_{i=1}^{m}(y^{(i)}-x^{(i)}\theta^{T})^{2} \\ &=(Y-X\theta^{T})^{T}(Y-X\theta^{T}) \end{aligned}$

損失函數對參數 $\theta$ 求導並令其爲零，得：

$X^{T}(Y-X\theta^{T})=0 \\ X^{T}Y=X^{T}X\theta$

如果 $X^{T}X$ 是非奇異矩陣，那麼最佳參數 $\theta$ 爲：

$\hat{\theta}=(X^{T}X)^{-1}X^{T}Y$

引入先驗分佈的參數模型(正則化)

到目前爲止，上面所講述的線性模型，我們只對數據中的噪聲做了一個先驗假設 $\epsilon \sim N(0, \sigma^{2})$ ，那麼求出來的解一定是對已有數據(觀測值)的一個最優解。但是，對已有數據的最優解不一定對未知數據也是最優解，那麼還需要對隱藏的真實分佈 $Y=X\theta^{T}$ 中的參數 $\theta$ 再做一個先驗假設。

Laplace distribution

令 $\theta \sim Laplace(0,\beta)$ ，那麼依照前文，參數 $\theta$ 的似然函數爲：

$\begin{aligned} L(\theta) &= \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)\prod_{j=1}^mp(\theta_{j}) \\ &= \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\hat{y}^{(i)})^{2}}{2\sigma^{2}})\prod_{j=1}^m\frac{1}{2\beta}exp(-\frac{|\theta_{j}|}{\beta}) \\ &=\frac{1}{(\sqrt{2\pi}\sigma)^{m}}exp(-\frac{1}{2\sigma^{2}}\sum_{i=1}^{m}(y^{(i)}-\hat{y}^{(i)})^{2})\cdot\frac{1}{(2\beta)^{m}}exp(-\frac{1}\beta\sum_{j=1}^{m}|\theta_{j}|) \\ \end{aligned}$

對數似然函數爲：

$\begin{aligned} \ln L(\theta) &= m\ln\frac{1}{\sqrt{2\pi}\sigma^{2}}+m\ln\frac{1}{2\beta}-\frac{1}{2\sigma^{2}}\sum_{i=1}^{m}(y^{(i)}-\hat{y}^{(i)})^{2}-\frac{1}{\beta}\sum_{j=1}^{m}|\theta_{j}|) \\ \end{aligned}$

最大化上式等價於最小化下式：

$J(\theta,\lambda)=\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^{2}+\lambda||\theta||_{1}$

此爲帶L1正則的線性迴歸，也稱LASSO。

Gaussian distribution

令 $\theta \sim N(0,\beta^{2})$ ，那麼依照前文，參數 $\theta$ 的似然函數爲：

$\begin{aligned} L(\theta) &= \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)\prod_{j=1}^mp(\theta_{j}) \\ &= \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\hat{y}^{(i)})^{2}}{2\sigma^{2}})\prod_{j=1}^m\frac{1}{\sqrt{2\pi}\beta}exp(-\frac{\theta_{j}^{2}}{2\beta^{2}}) \\ &=\frac{1}{(\sqrt{2\pi}\sigma)^{m}}exp(-\frac{1}{2\sigma^{2}}\sum_{i=1}^{m}(y^{(i)}-\hat{y}^{(i)})^{2})\cdot\frac{1}{(\sqrt{2\pi}\beta)^{m}}exp(-\frac{1}{2\beta^{2}}\sum_{j=1}^{m}\theta_{j}^{2}) \\ \end{aligned}$

對數似然函數爲：

$\begin{aligned} \ln L(\theta) &= m\ln\frac{1}{\sqrt{2\pi}\sigma^{2}}+n\ln\frac{1}{\sqrt{2\pi}\beta^{2}}-\frac{1}{2\sigma^{2}}\sum_{i=1}^{m}(y^{(i)}-\hat{y}^{(i)})^{2}-\frac{1}{2\beta^{2}}\sum_{j=1}^{m}\theta_{j}^{2}) \\ \end{aligned}$

最大化上式等價於最小化下式：

$J(\theta,\lambda)=\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^{2}+\lambda||\theta||_{2}$

此爲帶L2正則的線性迴歸，也稱Ridge Regression。

通用正則化

考慮了L1與L2正則化後，不難推出正則化還有一種通用形式：
$J(\theta,\lambda)=\frac{1}{2}\sum\limits_{i=1}^{m}(y^{(i)}-\hat{y}^{(i)})^{2}+\lambda\sum\limits_{j=1}^{m}\theta_{j}^{p}$
對於不同的 $p$ 值，其邊界條件如下圖所示：

不過實踐證明，去嘗試除了 $(0,1,2)$ 之外的 $p$ 值並不值得，反而將 $p$ 值限定在 $(1,2)$ 之間能達到一個Ridge與Lasso的折中。不過還有一種方法就是同時結合Ridge與Lasso，形成一個ElasticNet正則項：

$J(\theta,\lambda)=\frac{1}{2}\sum\limits_{i=1}^{m}(y^{(i)}-\hat{y}^{(i)})^{2}+\lambda\sum\limits_{j=1}^{m}[\alpha\theta_{j}^{2}+(1-\alpha)|\theta_{j}|]$

下圖是一個 $L_{1.2}$ 與ElasticNet的邊界對比：

正則化的另一個好處

上面已經講過，數據中的各變量可能是有相互關係的，除了引入交互項捕捉這種關係之外，還可以做特徵選擇。對於有 $n$ 個特徵的數據，可以嘗試所有可能的組合數來找到一個最佳特徵子集。不過暴力搜索的代價太高，可以以RME爲指導來做特徵選擇；另一方面，模型關於原數據集的最優解 $\hat{\theta}$ 在未知數據上不一定是最優解，選出一部分特徵也有助於提升模型的泛化性。

考慮選出一個特徵子集，模型可以用下式來描述：

$\hat{\theta}=arg\ min \sum_{i=1}^{m}(y^{(i)}-\sum_{j=1}^{n}\theta_{j}x_{ij})^{2} \qquad s.t.\sum_{j=1}^{n}I(\theta_{j}\ne0)\le{s}$

其中 $I(x)$ 是一個指示函數， $s$ 是事先設定好的特徵子集大小。但是上式不好計算，因爲約束條件是個非連續值，退而求其次，將約束條件轉化爲近似但便於計算的約束條件，有：

$\begin{aligned} \hat{\theta}&=arg\ min \sum_{i=1}^{m}(y^{(i)}-\sum_{j=1}^{n}\theta_{j}x_{ij})^{2} \qquad s.t.\sum_{j=1}^{n}|\theta_{j}|\le{s} \\ \hat{\theta}&=arg\ min \sum_{i=1}^{m}(y^{(i)}-\sum_{j=1}^{n}\theta_{j}x_{ij})^{2} \qquad s.t.\sqrt{\sum_{j=1}^{n}\theta_{j}^{2}}\le{s} \\ \end{aligned}$

轉化後的約束條件是可計算的，下面詳細討論一下這幾種約束。

注意到，以上三種約束分別等同於三種範數：

$\begin{aligned} \sum_{j=1}^{n}I(\theta_{j}\ne0)&=||\theta||_{0} \\ \sum_{j=1}^{n}|\theta_{j}|&=||\theta||_{1} \\ \sqrt{\sum_{j=1}^{n}\theta_{j}^{2}}&=||\theta||_{2} \\ \end{aligned}$

分別對應L0、L1、L2正則化，這三種正則化分別被稱作Subset、Lasso和Ridge，表達式爲：

$\begin{aligned} &Subset: \qquad \hat{\theta}=arg\ min(\sum_{i=1}^{m}(y^{(i)}-\hat{y}^{(i)})+\lambda\sum_{i=1}^{n}I(\theta_{j}\ne0)) \\ &Lasso: \qquad \hat{\theta}=arg\ min(\sum_{i=1}^{m}(y^{(i)}-\hat{y}^{(i)})+\lambda\sum_{i=1}^{n}|\theta_{j}|) \\ &Ridge: \qquad \hat{\theta}=arg\ min(\sum_{i=1}^{m}(y^{(i)}-\hat{y}^{(i)})+\lambda\sqrt{\sum_{i=1}^{n}\theta_{j}^{2}}) \\ \end{aligned}$

其約束範圍與原問題的等值線如下圖所示：

不難發現，Lasso容易導致部分特徵的係數變爲0，而Ridge則不會，所以，Lasso對於Ridge有一個最大的優點就是會產生解釋性更強的模型。但是在預測準確率上，兩者沒有絕對的優劣。不過通常來說，當數據中只有一部分特徵跟目標值相關時，Lasso優於Ridge；當所有特徵都與目標值相關時，Ridge優於Lasso。

正則化的必要性：

最小二乘法雖然有高準確率、低偏差的優點，但是其方差大，通過收縮或設置某些係數爲零，增加適當的偏差來降低模型的方差，能有效提升模型的泛化性
通過減小或者置零某些predictor的係數，可以得到解釋性更強的模型

線性迴歸Linear Regression

模型概述

一些前提假設

優化策略

梯度下降法

梯隊下降法的優劣

正規方程

引入先驗分佈的參數模型(正則化)

Laplace distribution

Gaussian distribution

通用正則化

正則化的另一個好處

線性迴歸Linear Regression

序列最小優化Sequential Minimal Optimization

樸素貝葉斯Naive Bayes

協同過濾Collaborative Filtering

K近鄰K Nearest Neighbor

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結