機器學習筆記-Regularization

本系列共四篇，爲林軒田機器學習基礎篇學習筆記。主要內容可以總結概括爲：線性模型通過非線性的變換可以得到非線性的模型，增強了模型對數據的擬合能力，但這樣導致了在機器學習領域中一個很常見的問題，過擬合。爲了解決這個問題引入了正則化因子(規則化因子)。而爲了解決正則化因子的選擇，模型的選擇以及超參數的選擇等問題引入了 $v a l i d a t i o n$ 的相關方法。

1 - Regularized Hypothesis Set

上一篇中說到，在機器學習中最大的危險是過擬合。當使用的模型的複雜度過高，資料量不多，資料存在噪聲或者是目標函數很複雜的時候都有可能會出現過擬合的情況。 $R e g u l a r i z a t i o n$ 可以看成是對付過擬合的一個方法。首先會介紹其數學推導，然後將其延伸到不同的方法上。

1.1 - 正則化

右圖是一個典型的過擬合的情形，資料量大小爲 $5$ ，當我們使用一個四次甚至是更高次的多項式去擬合的時候，紅色的線 $E_{i n}$ 很低，完美的穿過了所有的點，但是 $E_{o u t}$ 很高，離 $t a r g e t f u n c t i o n$ 即那條藍色的線很遠。所以很顯然發生了過擬合。我們想要做的是將右圖中的紅色的線變爲左圖中的紅線 $r e g u l a r i z e d f i t$ 。很明顯，左圖中紅線相比右圖中的紅線平滑了很多，所以比較貼近 $t a r g e t f u n c t i o n$ 。

左圖中的紅線是比較低次的多項式擬合的結果，右邊的紅線是比較高次的多項式擬合的結果。

從上圖看到使用高次的多項式（大的 $H y p o t h e s i s S e t$ ）會出現過擬合的情形，使用低次多項式可能可以避免過擬合，而高次多項式（大的 $H y p o t h e s i s S e t$ ）包含低次多項式（小的 $H y p o t h e s i s S e t$ ），如下圖所示，所以我們考慮從大的 $H y p o t h e s i s S e t$ 退回到小的 $H y p o t h e s i s S e t$ 中的話，這樣可能就不會有 $o v e r f i t t i n g$ 的發生。

$r e g u l a r i z a t i o n$ 的思想來自早期做 $function approximation$ ，當需要逼近某個函數（其實 $r e g r e s s i o n$ 也是在逼近某個函數）的時候，通常很多問題是 $ill-postd$ 的，也就是很多函數都滿足解的條件，導致不知道該選哪個作爲最終的解，這個時候就需要加一些限制條件。同樣我們現在做 $r e g r e s s i o n$ 也是一個解太多的問題，因爲能夠穿過這些點的函數有無窮多個， $r e g u l a r i z a t i o n$ 就是要加一些限制從中得到最好的結果。

如何從高次的多項式變爲低次的多項式呢，這裏以二維空間中的線性迴歸+ $Q$ 次多項式的特徵轉換 $Φ_{Q} (x) = (1, x, x^{2}, x^{3}, \dots, x^{Q})$ 爲學習問題，以從十次的多項式變爲二次的多項式爲例來進行討論。

十次多項式的假設集爲：
$H y p o t h e s i s w i n H_{10} ： w_{0} + w_{1} x + w_{2} x^{2} + w_{3} x^{3} + \dots + w_{10} x^{10}$

二次多項式的假設集爲：
$H y p o t h e s i s w i n H_{2} ： w_{0} + w_{1} x + w_{2} x^{2}$

我們看得出來，所有的 $2$ 次多項式就等價於 $10$ 次多項式加上一些條件，這些條件可以表示爲 $w_{3} = w_{4} = \dots = w_{10} = 0$ 。那麼上面講到的想要從十次多項式退回到二次多項式就可以通過這樣的方式做到，即，加限制條件 $： w_{3} = w_{4} = \dots = w_{10} = 0$ 。

考慮兩個問題：

找一個最好的十次多項式來使得 $E_{i n}$ 最小，也就是找一個最好的 $11$ 個維度的向量 $w$ 來使得 $E_{i n}$ 最小。

這個問題的假設集是： $H_{10} = {w \in R^{11}}$ ，
其最佳化問題爲：
$\underset{w \in R^{11}}{m i n} E_{i n} (w)$ ，

第二個問題是：找一個最好的二次多項式來使得 $E_{i n}$ 最小，但是考慮的假設集和上一個問題一樣，都是考慮找最好的 $11$ 維度的向量 $w$ 來最小化 $E_{i n}$ ，但是有條件限制， $w_{3} = w_{4} = \dots = w_{10} = 0$ 。

這個問題的假設集是： $H_{10} = {w \in R^{11} ， w h i l e w_{3} = w_{4} = \dots = w_{10} = 0}$ ，
其最佳化問題爲：
$\underset{w \in R^{11}}{m i n} E_{i n} (w) s . t . w_{3} = w_{4} = \dots = w_{10} = 0$

之所以這樣做是爲了之後的推導更加順理成章一點（因爲第二個問題很明顯饒了一個沒有必要的圈子）。

現在我們把上述的第二個問題的條件放寬鬆一點：原來我們要求的是 $w_{3} = w_{4} = \dots = w_{10} = 0$ ，現在我們要求只要有大於 $8$ 個權重等於 $0$ 就可以了。這樣的話就不一定是二次多項式，而可能是一個高於二次的多項式了。不過由於這個高次的多項式中只有很少的係數不爲 $0$ ，那麼可能就擁有了和二次多項式一樣的簡單性質。那麼原來的問題和新的問題分別表示如下：

原問題：

\begin{aligned} (36) & 假設集： & H_{2} = {w \in R^{10 + 1} w h i l e w_{3} = w_{4} = \dots = w_{10} = 0} \\ (37) & 最優化問題： & \underset{w \in R^{10 + 1}}{m i n} E_{i n} (w) \\ (38) & s . t . w_{3} = w_{4} = \dots = w_{10} = 0 \end{aligned}

條件放寬鬆之後的新問題：

\begin{aligned} (39) & 假設集： & H_{2}^{'} = {w \in R^{10 + 1} w h i l e \geq 8 o f w_{q} = 0} \\ (40) & 最優化問題： & \underset{w \in R^{10 + 1}}{m i n} E_{i n} (w) \\ (41) & s . t . \sum_{q = 0}^{10} | [w_{q} \neq 0] | \leq 3 \end{aligned}

現在我們可以得到以下的包含關係：

H_{2} \subset H_{2}^{'} \subset H_{10}

這也就是說：

H_{2}^{'}

會比

H_{2}

更加的靈活

(f l e x i b l e)

一點，模型複雜度更高一點，但是沒有

H_{10}

那麼複雜(

powerful

)以至於那麼容易過擬合。雖然這個新的最佳化問題有很多的好處，比如不那麼容易過擬合，解是稀疏的。但是由於在其條件中存在

boolean operation

這樣離散的函數，所以這個問題的求解也被證明是個

N P

難問題。

爲了可以求解，進一步將問題的條件放寬鬆。

原來的問題是：

\begin{aligned} (7) & 假設集： & H_{2}^{'} = {w \in R^{10 + 1} w h i l e \geq 8 o f w_{q} = 0} \\ (8) & 最優化問題： & \underset{w \in R^{10 + 1}}{m i n} E_{i n} (w) \\ (9) & s . t . \sum_{q = 0}^{10} | [w_{q} \neq 0] | \leq 3 \end{aligned}

進一步放寬鬆之後的問題如下：（如果要求 $w$ 只能有小於等於 $3$ 個不爲 $0$ ，可以近似等價的要求所有的 $w$ 的平方和小於一個數）

\begin{aligned} (10) & 假設集： & H (C) = {w \in R^{10 + 1} w h i l e | | w | |^{2} \leq C} \\ (11) & 最優化問題： & \underset{w \in R^{10 + 1}}{m i n} E_{i n} (w) \\ (12) & s . t . \sum_{q = 0}^{10} w_{q}^{2} \leq C \end{aligned}

關於 $H (C)$ ：

$H (C)$ 會和 $H_{2}^{'}$ 有重合的部分，但是不一定是等同的關係。
當 $C$ 大於 $0$ 的時候， $H (C)$ 之間存在包含的關係， $H (0) \subset H (1.126) \subset H (1126) \subset \dots \subset H (\infty) = H_{10}$

我們把 $H (C)$ 這樣的 $hypothesis set$ 稱爲是正則化的 $hypothesis$ ，也就是加上條件的 $hypothesis$ 。如果可以在這樣的 $hypothesis$ 下找到一個好的 $w$ ，我們將這樣的 $w$ 稱爲是 $w_{r e g}$ ，也就是在我們的正則下找到的假設函數。

2 - Weight Decay Regularization

2.1 - 嶺迴歸（正則化的線性迴歸）

通過上一小節的分析得到了帶有條件的線性迴歸問題，如下：

\begin{aligned} (13) & \underset{w \in R^{Q + 1}}{m i n} & E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} (w^{T} z_{n} - y_{n})^{2} \\ (14) & s . t . & \sum_{q = 0}^{Q} w_{q}^{2} \leq C \end{aligned}

將這個問題表示爲向量和矩陣的形式：

\begin{aligned} (15) & \underset{w \in R^{Q + 1}}{m i n} & E_{i n} (w) = \frac{1}{N} (Z w - y)^{T} (Z w - y) \\ (16) & s . t . & w^{T} w \leq C \end{aligned}

限制條件 $w^{T} w \leq C$ 在幾何上代表我們想要的 $w$ 在一個球裏面：球心在原點，球的半徑是 $\sqrt{C}$ 。所以我們想要找到的只是在這些球裏面的所有的 $w$ 中，哪個是最好的。

2.2 - 通過直觀分析求解

如果是求解無約束的最優化問題，沿着目標函數的梯度的反方向不斷的更新變量可以到達目標函數的最小值。如圖， $w$ 位於當前的一個位置，梯度的反方向 $- ▽ E_{i n}$ 如圖中的藍色箭頭所示，所以只要沿着這個方向走，就能最終走到不加限制條件的線性迴歸的最佳解 $w_{l i n}$ 。但是現在我們需要在約束下求解最優化問題，其中的約束爲： $w$ 需要在半徑爲 $\sqrt{C}$ 的球內，如圖中紅色的圓所示。所以就算你知道 $w_{l i n}$ 在什麼方向，但是這樣的限制下你也不可能去到那裏。並且可以想象大部分的情況下，約束條件下的最優解都會在球的邊緣上。

假設現在有一個 $w$ 已經在球的邊界上了，那麼如何判斷該 $w$ 是不是最佳解 $w_{r e g}$ 呢？

球的表達式爲 $w^{T} w = C$ ，所以球的法向量爲 $w$ 。從圖中可以看出最佳的 $w$ ，即 $w_{r e g}$ ，應該滿足的條件是： $w_{r e g}$ 處的梯度的反方向應該平行於球的法向量。若梯度的反方向不平行於球的法向量，那麼梯度的反方向一定有平行於球的切面的分量，如圖中綠色的箭頭所示，那麼就說明還存在更好的 $w$ 能更加的接近 $w_{r e g}$ 。

綜上：我們想要的解 $w_{r e g}$ 要滿足如下的性質：（目標函數的梯度方向要和球的法線方向 $w$ 平行，其中的參數 $N, λ$ 是爲了後續操作的方便而添加的常量）

▽ E_{i n} (w_{r e g}) + \frac{2 λ}{N} w_{r e g} = 0

如果 $λ$ 是已知的並且 $λ > 0$ ，針對線性迴歸問題上式可以整理爲：

\begin{matrix} (1) & \frac{2}{N} (Z^{T} Z w_{r e g} - Z^{T} y) + \frac{2 λ}{N} w_{r e g} = 0 \end{matrix}

$(1)$ 爲只有一個變量 $w_{r e g}$ 的線性方程。可以得到最佳的解爲：

w_{r e g} = (Z^{T} Z + λ I)^{- 1} Z^{T} y

只要

λ > 0

，

Z^{T} Z + λ I

就是可逆的，因爲

Z^{T} Z

是半正定的，加

λ I

之後變爲正定的。

這個模型被稱爲是 $ridge regression$ ，也就是加了正則化項的線性迴歸。

上述給出的僅僅是針對 $linear regression$ 問題的解。如果是其他的問題呢？例如怎麼求解 $logistic regression$ 加上 $r e g u l a r i z a t i o n$ 的解呢？

2.3 - 利用kkt求解

在求解最優化問題中，拉格朗日乘子法 $(Lagrange Multiplier)$ 和 $KKT(Karush Kuhn Tucker)$ 條件是兩種最常用的方法。在有等式約束時使用拉格朗日乘子法，在有不等約束時使用 $K K T$ 條件。這裏提到的最優化問題通常是指對於給定的某一函數，求其在指定作用域上的全局最小值問題。

一般情況下，最優化問題會碰到一下三種情況：

2.3.1 - 無約束條件

這是最簡單的情況，解決方法通常是函數對變量求導，令求導函數等於0的點可能是極值點。將結果帶回原函數進行驗證即可。

2.3.2 - 等式約束條件

\begin{aligned} (17) & m i n f (x) \\ (18) & s . t . & h_{k} (x) = 0, k = 1, 2, \dots, l \end{aligned}

此時使用的方法是拉格朗日乘子法，首先定義拉格朗日函數 $F (x)$ :

F (x, λ) = f (x) + \sum_{k = 1}^{l} λ_{k} h_{k} (x)

然後求解拉格朗日函數對各個變量的偏導數，並令其爲0：

\frac{\partial F}{\partial x} = 0, \dots, \frac{\partial F}{\partial λ_{k}} = 0

方程組的解就可能是最優解。

2.3.3 - 不等式約束條件

\begin{aligned} (19) & m i n f (x) \\ (20) & s . t . & h_{j} (x) = 0, j = 1, 2, \dots, p \\ (21) & g_{k} (x) \leq 0, k = 1, 2, \dots, q \end{aligned}

定義不等式約束下的拉格朗日函數：

L (x, λ, μ) = f (x) + \sum_{j = 1}^{p} λ_{j} h_{j} (x) + \sum_{k = 1}^{q} μ_{k} g_{k} (x)

求解方法是 $KKT$ 條件， $KKT$ 條件是說最優值必須滿足以下條件：

$L (a, b, x)$ 對 $x$ 求導爲零
$h (x) = 0$
$a * g (x) = 0$

所以對於帶有正則條件的線性迴歸問題的求解過程如下：

\begin{aligned} (22) & \underset{w \in R^{Q + 1}}{m i n} & E_{i n} (w) = \frac{1}{N} (Z w - y)^{T} (Z w - y) \\ (23) & s . t . & w^{T} w \leq C \end{aligned}

首先構造拉格朗日函數如下：

L (w, λ) = \frac{1}{N} (Z w - y)^{T} (Z w - y) + λ (w^{T} w - C)

根據上述提到的 $KKT$ 條件中的第一個可知最優解滿足 $\frac{\partial L}{\partial w} = 0$

\begin{aligned} (24) & \frac{\partial L}{\partial w} & = \frac{\partial}{\partial w} \frac{1}{N} (w^{T} Z^{T} Z w - 2 w^{T} Z^{T} y + y^{T} y) + λ (w^{T} w - C) \\ (25) & = \frac{1}{N} (2 Z^{T} Z w - 2 Z^{T} y) + 2 λ w \end{aligned}

Z^{T} Z w - Z^{T} y + λ w = 0 ⟶ w = (Z^{T} Z + λ I)^{- 1} Z^{T} y

2.4 - 帶正則的損失函數

根據高等數學的知識可以知道，求解

\begin{matrix} (2) & ▽ E_{i n} (w_{r e g}) + \frac{2 λ}{N} w_{r e g} = 0 \end{matrix}

等價於想要最小化：

\begin{matrix} (3) & \underset{a u g m e n t e d e r r o r E_{a u g} (w)}{\underset{⏟}{E_{i n} (w) + \frac{λ}{N} \underset{r e g u l a r i z e r}{\underset{⏟}{w^{T} w}}}} \end{matrix}

所以當我們想要求解 $(3)$ 的最小化問題的時候，就是要求解 $(2)$ 。我們將 $w^{T} w$ 稱爲 $r e g u l a r i z e r$ ，將 $(3)$ 稱爲 $augmented error$ 。

如果 $λ$ 是已知的話，原來求解有約束的最優化問題就變爲求解無約束的最優化問題，並且這樣的問題我們是可以求解的。

原來的有約束的問題是長這樣的：求解一個有約束的最小化 $E_{i n}$ 問題。
$\begin{matrix} (4) & \begin{aligned} (50) & \underset{w \in R^{Q + 1}}{m i n} & E_{i n} (w) \\ (51) & s . t . & \sum_{q = 0}^{Q} w_{q}^{2} \leq C \end{aligned} \end{matrix}$
現在如果可以知道 $λ$ 的大小，就可以求解如下的無約束的最優化問題：
$\begin{matrix} (5) & \underset{w}{m i n} E_{i n} (w) + \frac{λ}{N} w^{T} w \end{matrix}$

一開始我們想要最優化的問題是 $(4)$ ，而對於一個特定的 $C$ 總存在一個 $λ$ 使得這兩個最優化問題是等價的。（優化裏的知識不懂，望賜教）

原來的問題我們需要提前設定參數 $C$ ，現在的問題通過設置 $λ$ 來代替 $C$ 達到同樣的效果。

2.5 - 實例分析

從圖中可以看出，只要加一點的 $λ$ ，即加一點點的 $r e g u l a r i z a t i o n$ 就可以得到很好的結果。

$λ$ 越大 $⟷$ 更傾向於使得 $w$ 越短越好（ $λ$ 可以理解爲在懲罰很大的 $w$ ） $⟷$ 對應於更小的 $C$

因爲加上 $λ$ 後我們其實是會得到比較短的 $w$ ，所以通常這樣的 $r e g u l a r i z a t i o n (+ \frac{λ}{N} w^{T} w)$ 被稱爲 $w e i g h t d e c a y r e g u l a r i z a t i o n$ 。

這樣的 $r e g u l a r i z a t i o n$ 的方式可以搭配其他的模型，例如 $l o g i s t i c r e g r e s s i o n$ ，也可以搭配其他的 $f e a t u r e t r a n s f o r m$ ，不僅僅是 $p o l y n o m i a l t r a n s f o r m$ 。

2.6 - Legendre polynomials

這裏提一個小小的細節，剛剛說這樣的 $r e g u l a r i z a t i o n$ 可以和任何形式的 $f e a t u r e t r a n s f o r m$ 搭配使用。但是在使用 $p o l y n o m i a l t r a n s f o r m$ 的時候，會有一些缺陷。如果樣本特徵的取值範圍是 $[- 1, 1]$ 的話，那麼該值的 $Q$ 次方將會是一個很小很小的數，這樣的數值餵給計算機除了有精確度的問題之外，還有一個問題需要考慮：如果這個經過轉換之後的特徵確實有用，那麼它想要發揮作用的話，可能就需要一個很大的權重值 $w$ 。這和 $r e g u l a r i z a t i o n$ 想要“壓縮” $w$ 似乎是有點衝突的，因爲這樣看起來過度的懲罰了這些高維度的特徵所需要的大的權重。（高維度想要打的權重，正則化不讓）。

爲了解決這個問題，首先需要在多項式空間中找到一組垂直的基底函數，這些函數彼此的內積爲 $0$ 。這些基底被稱爲是 $l e g e n d r e p o l y n o m i a l$ 。只需要記得當使用 $p o l y n o m i a l t r a n s f o r m$ 做 $r e g r e s s i o n$ ，並且加正則化項的的時候，使用 $l e g e n d r e p o l y n o m i a l$ 會得到更好的效果：

下面給出的是前 $5$ 個 $l e g e n d r e p o l y n o m i a l$ 。

3 - Regularization and VC Theory

總結一下 $r e g u l a r i z a t i o n$ 問題的提出和解決方案：一開始我們是想解決一個有約束的最小化問題如下：

\begin{aligned} (28) & \underset{w \in R^{Q + 1}}{m i n} & E_{i n} (w) \\ (29) & s . t . & \sum_{q = 0}^{Q} w_{q}^{2} \leq C \end{aligned}

因爲 $C$ 和 $λ$ 的對應關係，我們將其轉換爲了一個無約束的最優化問題，也就是求解如下的 $a u g m e n t e d e r r o r$ 的最小化問題：

\underset{w}{m i n} E_{i n} (w) + \frac{λ}{N} w^{T} w

原始問題所對應的 $V C$ 的保證是：

E_{o u t} (w) \leq E_{i n} (w) + Ω (H (C))

$r e g u l a r i z e r w^{T} w = Ω (w)$ 可以看做是一個假設函數的複雜度。
$Ω (H)$ 代表的是整個假設集的複雜度。
如果 $\frac{λ}{N} Ω (w)$ 能夠很好的代表 $Ω (w)$ 的話，那麼 $E_{a u g}$ 可能是比 $E_{i n}$ 更好的一個 $E_{o u t}$ 的“代理”。或者說，我們去最小化 $E_{a u g}$ 比去最小化 $E_{i n}$ 更接近是在最小化 $E_{o u t}$ 。（原來我們是想要最小化 $E_{i n}$ 來保證 $E_{o u t}$ 最小，但是現在發現最小化 $E_{a u g}$ 看起來能更好的最小化 $E_{o u t}$ ，因爲 $E_{a u g}$ 考慮了複雜度，並且最小化 $E_{a u g}$ 的時候時無約束的，可以在更大的假設集中做出選擇。不知道理解的對不對）。

4 - 更多的正則項

前面介紹的 $r e g u l a r i z a t i o n$ 都是基於 $w e i g h t d e c a y r e g u l a r i z e r$ ，即 $w^{T} w$ 。那麼對於更一般的問題來說，到底應該加什麼樣子的 $r e g u l a r i z e r$ 對於結果是好的呢？

4.1 - general regularizers

下面給出在添加正則化項時可以考慮的一些依據，

根據 $t a r g e t f u n c t i o n$ 的特徵
如果 $t a r g e t f u n c t i o n$ 是個偶函數或者是很接近偶函數的話，所以我們考慮約束奇數次方的 $w$ ，使得奇數次方的 $w$ 的值變小就更加符合對於 $t a r g e t f u n c t i o n$ 的認識。通過添加相應的 $r e g u l a r i z e r$ 可以達到這個目的： $\sum | [q i s o d d] | w_{q}^{2}$
選用可以幫助我們選擇出比較平滑和簡單的假設函數的 $r e g u l a r i z e r$
$r e g u l a r i z a t i o n$ 是用來對付 $o v e r f i t t i n g$ 的一種方法，而 $o v e r f i t t i n g$ 的成因是因爲有 $n o i s e$ 的存在。不管是 $s t o c h a s t i c n o i s e$ 還是 $d e t e r m i n i s t i c n o i s e$ 都是造成資料“不平滑”的原因。而 $t a r g e t f u n c t i o n$ 相對於 $n o i s e$ 來說是比較平滑的，所以我們應該選擇比較平滑的 $h y p o t h e s i s$ 。例如 $L 1 r e g u l a r i z e r$ 會幫助找出簡單的函數。
找容易最優化的 $r e g u l a r i z e r$
例如 $w e i g h t d e c a y r e g u l a r i z e r$ ，即 $L 2 n o r m$ 就是這樣的。

4.2 - L2 and L1 regularizer

L 2 R e g u l a r i z e r ： Ω (w) = \sum_{q = 0}^{Q} w_{q}^{2} = ‖ w ‖_{2}

$L 2 R e g u l a r i z e r$ 處處可微，所以容易做最佳化，

L 1 R e g u l a r i z e r ： Ω (w) = \sum_{q = 0}^{Q} | w_{q} | = ‖ w ‖_{1}

$L 1 R e g u l a r i z e r$ 依然是 $c o n v e x$ 的，但是因爲有一些角存在，所以並不是處處可微的。從圖中可以看出， $L 1$ 的解通常是稀疏的，因爲最優解出現在目標函數的等高線（如圖中藍色線）和約束條件的邊界（如圖中紅色線）相切的點上，而這一點通常位於紅色邊界的頂點處。

4.3 - The optimal $λ$

當決定了 $r e g u l a r i z e r$ 之後，另一個需要考慮的問題是參數 $λ$ 的選取。下面結合兩個實驗結果進行分析

當 $s t o c h a s t i c n o i s e σ^{2} = 0, 0.25, 0.5$ 的時候，計算不同的 $λ$ 下 $E_{o u t}$ 的取值
當 $d e t e r m i n i s t i c n o i s e Q_{f} = 15, 30, 100$ 的時候，計算不同的 $λ$ 下 $E_{o u t}$ 的取值

可以看出來當 $n o i s e$ 越多的時候，我們需要更大的 $r e g u l a r i z a r$ ，因此需要更大的 $λ$ 。但是實際上我們並不知道在數據中有多少的 $n o i s e$ ，所以一般來說我們需要在不同的 $λ$ 中做選擇來讓 $r e g u l a r i z e r$ 發揮最大的效果。那麼問題來了，怎麼進行參數的選擇呢？在下一篇 $v a l i d a t i o n$ 中將會系列的給出在 $m a c h i n e l e a r n i n g$ 中做參數選擇的方法。

5 - Summary

這一篇的主要內容是正則化 $r e g u l a r i z a t i o n$ ， $r e g u l a r i z e d h y p o t h e s i s s e t$ 其實就是在原來的 $h y p o t h e s i s s e t$ 的基礎上加上了條件，將加上這樣的條件的問題的求解轉換爲一個 $a u g m e n t e d e r r o r$ 的最優化問題。 $r e g u l a r i z e r$ 是一個非常常用的工具，我們可以根據對 $t a r g e t f u n c t i o n$ 的認識等等將正則化項添加到目標函數中。

6 - reference

_席達_

發佈了109 篇原創文章 · 獲贊 102 · 訪問量 40萬+

他的留言板關注

機器學習筆記-Regularization

1 - Regularized Hypothesis Set

1.1 - 正則化

2 - Weight Decay Regularization

2.1 - 嶺迴歸（正則化的線性迴歸）

2.2 - 通過直觀分析求解

2.3 - 利用kkt求解

2.3.1 - 無約束條件

2.3.2 - 等式約束條件

2.3.3 - 不等式約束條件

2.4 - 帶正則的損失函數

2.5 - 實例分析

2.6 - Legendre polynomials

3 - Regularization and VC Theory

4 - 更多的正則項

4.1 - general regularizers

4.2 - L2 and L1 regularizer

4.3 - The optimal $λ$

5 - Summary

6 - reference

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

機器學習筆記-Gradient Boosted Decision Tree

機器學習筆記-Blending and Bagging

機器學習筆記-Kernel Logistic Regression

機器學習筆記-Regularization

word2vec安裝使用筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

機器學習筆記-Regularization

1 - Regularized Hypothesis Set

1.1 - 正則化

2 - Weight Decay Regularization

2.1 - 嶺迴歸（正則化的線性迴歸）

2.2 - 通過直觀分析求解

2.3 - 利用kkt求解

2.3.1 - 無約束條件

2.3.2 - 等式約束條件

2.3.3 - 不等式約束條件

2.4 - 帶正則的損失函數

2.5 - 實例分析

2.6 - Legendre polynomials

3 - Regularization and VC Theory

4 - 更多的正則項

4.1 - general regularizers

4.2 - L2 and L1 regularizer

4.3 - The optimal λλ

5 - Summary

6 - reference

4.3 - The optimal $λ$