《機器學習基石》9-Linear Regression

原創

Eathen_Zheng

2018-09-03 13:51

這一節主要介紹線性迴歸算法。

Linear Regression Problem

對於輸出空間 $Y = R$ 的一類問題，一個比較簡單的想法就是：將 Linear Classification 的決策函數中的 sign 函數去掉，使用各種特徵的加權結果來表示 $y$

y \approx \sum_{i = 0}^{d} w_{i} x_{i} = w^{T} x

這就是線性迴歸算法，它的假設空間爲

h (x) = w^{T} x

線性迴歸的目標是尋找一條直線（

R^{2}

）或者一個平面（

R^{3}

）或者超平面（

R^{n}

），使得誤差最小，常用的誤差函數是平方誤差

E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} {(h (x_{n}) - y_{n})}^{2}

E_{o u t} (w) = \underset{(x, y) \sim P}{ϵ} (w^{T} x - y)

Linear Regression Algorithm

將 $E_{i n}$ 寫成矩陣形式

\begin{aligned} E_{i n} (w) & = \frac{1}{N} \sum_{n = 1}^{N} {(h (x_{n}) - y_{n})}^{2} \\ = \frac{1}{N} ‖ \begin{matrix} x_{1}^{T} w - y_{1} \\ x_{2}^{T} w - y_{2} \\ \cdot \cdot \cdot \\ x_{N}^{T} w - y_{N} \end{matrix} ‖^{2} \\ = \frac{1}{N} ‖ X w - y ‖^{2} \end{aligned}

其中

X = [\begin{matrix} x_{1}^{T}, 1 \\ x_{2}^{T}, 1 \\ \cdot \cdot \cdot \\ x_{N}^{T}, 1 \end{matrix}] \in R^{N \times (d + 1)}

w \in R^{(d + 1) \times 1}

y \in R^{N \times 1}

我們的目標是找到一個

w

，使得

E_{i n} (w)

儘可能小。因此，將

E_{i n} (w)

對

w

求導，得到：

\nabla E_{i n} (w) = \frac{2}{N} X^{T} (X w - y)

令

\nabla E_{i n} (w) = 0

，得到

w

的最優解

w_{LIN} = (X^{T} X)^{- 1} X^{T} y = X^{†} y

其中

X^{†} = (X^{T} X)^{- 1} X^{T}

稱爲矩陣

X

的僞逆，於是

h (x) = w_{LIN}^{T} x

將上面做一個小結，得到 Linear Regression 算法的流程如下：

Generalization Issue

下面我們來分析一下 Linear Regression 的 $E_{i n}$

\begin{aligned} E_{i n} (w_{L I N}) & = \frac{1}{N} | | y - \hat{y} | |^{2} \\ = \frac{1}{N} | | y - X X^{†} y | |^{2} \\ = \frac{1}{N} | | (I - H) y | |^{2} \end{aligned}

其中

H = X X^{†}

是投影矩陣，把

y

投影到

X

的

d + 1

個向量構成的平面上，

H

有如下的性質：

對稱性 $H = H^{T}$
冪等性 $H^{2} = H$
半正定性 $λ_{i} \geq 0$
$t r a c e (I - H) = N - (d + 1)$

假設 $y = f (X) + noise, f (x) \in span$ ，那麼如上圖所示，有

\begin{aligned} E_{i n} (w_{L I N}) & = \frac{1}{N} | | (I - H) y | |^{2} \\ = \frac{1}{N} | | (I - H) n o i s e | |^{2} \\ = \frac{1}{N} t r a c e (I - H) | | n o i s e | |^{2} \\ = \frac{1}{N} (N - (d + 1)) | | n o i s e | |^{2} \end{aligned}

得到：

E_{i n} (w_{L I N}) = | | n o i s e | |^{2} \cdot (1 - \frac{d + 1}{N})

E_{o u t} (w_{L I N}) = | | n o i s e | |^{2} \cdot (1 + \frac{d + 1}{N})

兩者最終都向

σ^{2}

(noise level)收斂，差距是

\frac{2 (d + 1)}{N}

，因此說明算法是可行的。

Linear Regression for Binary Classification

對比一下 Linear Classification 與 Linear Regression：

Linear Regression
- 用於分類問題
- $Y = {+ 1, - 1}$
- $h (x) = sign (w^{T} x)$
- NP-hard，難於求解
Linear Regression
- 用於迴歸問題
- $Y = R$
- $h (x) = w^{T} x$
- 易於求解

因爲

{err}_{0 / 1} = [[sign (w^{T} x) \neq y]] \leq {err}_{sqr} = (w^{T} x - y)^{2}

所以可以將 Linear Regression 用於分類問題上：

run Linear Regression on binary classification data $D$
return $g (x) = sign (w_{LIN}^{T} x)$

以上便是 Linear Regression 的內容。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《機器學習基石》9-Linear Regression

Linear Regression Problem

Linear Regression Algorithm

Generalization Issue

Linear Regression for Binary Classification

985 碩士程序員，空窗 4 個月沒有 Offer！

【入門教程】5分鐘教你快速學會集成Java springboot ~

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

盛大發布 | Zabbix 7.0 LTS--性能與擴展的卓越融合

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

[Leetcode] Spiral Matrix II

[Leetcode] Combination Sum

[Leetcode] Triangle

[Leetcode] Remove Duplicates from Sorted Array II

[Leetcode] Maximum Subarray

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結