筆記

描述

正則化是什麼？
正則化是通過對假設函數附加一項正則化參數，來減小該項的擬合程度。

爲什麼要有正則化？
有的時候，爲了更好的擬合數據的情況，我們會在訓練時，添加高階項。但這會引發新的問題，如果訓練的足夠多，那會產生過擬合現象，這時候很難對測試數據有更好的泛化性。如果訓練的不夠，又會導致欠擬合情況，連訓練集都無法準確預測。

如何正則化？
爲了不過擬合，我們想要保持高階項的係數足夠小（又不想直接去除該項，因爲高階項或多或少有一定影響），引入一個懲罰項，稱爲正則化項，使得模型相對簡單。

爲何正則化能減小某一項的影響？
我們通過設置正則化參數 $\lambda$ ，該值設得越大，就對其特徵 $\theta_j$ 懲罰程度越大，使其特徵 $\theta_j$ 的影響越小。
（這是由於，訓練時有正則化項，預測時沒有，所以 $\theta_j$ 的值小了，影響小了）
注：懲罰過大，可能出現欠擬合

關鍵點

（我們不對j=0對應的 $\theta_0$ 作懲罰，因爲 $\theta_0$ 項的 $x_0 = 1$ ，沒有必要懲罰）

線性迴歸的正則化：
代價函數：
$J(\theta) = \frac{1}{2m} [ \sum_{i=1}^{m} (h_\theta (x^{(i)}) - y^{i})^2 + \lambda \sum_{j=1}^{n} \theta_j^2]$
更新系數：
$\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\theta (x^{(i)}) - y^{(i)}) x_j^{(i)} \ \ \ \ \ (j = 0) \\ \theta_j := \theta_j - \alpha [ \frac{1}{m} \sum_{i=1}^{m} (h_\theta (x^{(i)}) - y^{(i)}) x_j^{(i)} + \frac{\lambda}{m} \theta_j ] \\ := \theta_j (1 - \lambda \frac{\lambda}{m}) - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\theta (x^{(i)}) - y^{(i)}) x_j^{(i)} \ \ \ \ \ (j = 1, 2, ... , n)$
（其中， $\lambda \sum_{j=1}^{n} \theta_j^2$ 就是正則化參數regularization parameter）

邏輯迴歸的正則化：
代價函數：
$J (\theta) = - [\frac{1}{m} \sum_{i=1}^{m} y^i log{h_\theta (x^{(i)})} + (1 - y^{i}) log ({1 - h_\theta (x^{i}))}] + \frac{\lambda}{2m} \sum_{j=1}^{n} \theta_j^2$
更新系數：
$\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\theta (x^{(i)}) - y^{(i)}) x_j^{(i)} \ \ \ \ \ (j = 0) \\ \theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=1}^{m} (h_\theta (x^{(i)}) - y^{(i)}) x_j^{(i)} + \frac{\lambda}{m} \theta_j ] \ \ \ \ \ (j = 1, 2, 3, ... , n)$
（其中， $\frac{1}{2m} \lambda \sum_{j=1}^{n} \theta_j^2$ 就是正則化參數regularization parameter）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

regularization 正則化

筆記

描述

關鍵點

neural networks logistic regression 神經網絡邏輯迴歸

regularization 正則化

docker tensorflow-jupyter簡單使用

linear regreesion 線性迴歸

python並行編程 - 介紹篇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結