[李宏毅機器學習] 3. 梯度下降

原創

pengwill97

2019-07-31 10:36

您可以在我的個人博客 blog.pengwill.info 獲得更好的閱讀體驗。

文章目錄

Adagrad

標準化

梯度下降的數學原理

泰勒展開

思維導圖

回顧

在Step3中，我們需要根據loss function，對參數 $\theta$ 進行優化，使用到的方法就是梯度下降算法。可以用如下的函數表示。
$\theta^{*}=\arg \min _{\theta} L(\theta)$
其中 $L$ 表示loss function， $\theta$ 表示待優化的參數。

優化的方法是使參數 $\theta$ 向其梯度方向減小，具體來說
$\theta:=\theta-\eta \nabla L\left(\theta\right)$
$\eta$ 稱爲學習速率，是一個超參數，需要手動進行調整。

Tip1: 調整學習速率

learning rate 太小，loss下降太慢；learning rate太大，loss震盪或者增加。建議畫出隨着loss值隨迭代次數變化的曲線，根據曲線進行調整。

learning rate調整建議

將learning rate隨迭代次數逐漸減小。在剛開始時候希望收斂的步子大一點，而在後面的時候learning rate隨迭代次數逐漸減小。比如 $\eta = \frac{\eta}{\sqrt{t+1}}$ ，其中 $t$ 爲迭代次數。
不同的參數設置不同的learning rate。

Adagrad

對每個參數設置不同的learning rate。在每次迭代時，將學習速率除以偏導和的均方根。

即
$\theta_i:=\theta_i-\frac{\eta}{\sigma} \frac{\partial L}{\partial \theta_i}$
其中 $\sigma$ 爲Loss function對 $\theta^i$ 偏導累計和的均方根。decay項( $\frac{1}{\sqrt{t+1}}$ )和原本 $\sigma$ 中的項相消掉了。

Tip2: 隨機梯度下降

傳統梯度下降，迭代時需要根據所有的樣本來更新loss function，進而根據loss function對參數的偏導更新參數。當樣本非常多的時候，單次迭代就可能花費大量的時間。

隨機梯度下降，迭代時選擇一個樣本點來更新loss function，再根據loss function對參數的偏導更新參數值。這樣的優點是速度更快。但是由於樣本中可能含有噪聲，單次迭代不一定向函數減小最快的方向更新，甚至有可能迭代後loss值會增加。

Tip3: 特徵縮放

採用特徵縮放是爲了避免數據大小或者數據的量綱不同對學習過程造成的影響。

假如當前的loss function爲 $L(\theta) =\theta_0+ x_1\theta_1+x_2\theta_2$ 。其中屬性 $x_1$ 的變化範圍爲 $-1\le x_1\le1$ ， $x_2$ 的變化範圍爲 $100\le x_2 \le 1000$ 。在學習過程中，因爲 $|x_1|\le|x_2|$ ，所以只要 $\theta_2$ 略微變化一點，就會對 $L$ 函數值造成很大影響；相反， $\theta_1$ 的變化對函數值造成的影響不大。

我們更加希望數據的每個屬性的尺度都接近。

標準化

對數據的每一個特徵值，減去特徵的均值，除以特徵的標準差，最後可以使這個特徵的均值爲0，方差爲1。

梯度下降的數學原理

泰勒展開

若一元函數 $h(x)$ 在 $x=x_0$ 處無限可導，則可以用多項式來逼近函數 $h(x)$
$h(x)=\sum_{k=0}^\infty\frac{h^{(k)}(x_0)}{k!}(x-x_0)^k$
二元函數的泰勒展開爲：
$h(x, y) = \sum_{k=0}^\infty k!\frac{\partial^kh}{\partial x}(x-x_0)+k!\frac{\partial^kh}{\partial y}(y-y_0)$
梯度下降算法在計算損失函數值時候，實際上爲在原來參數點的一階展開，即
$\mathrm{L}(\theta) \approx \mathrm{L}(a, b)+\frac{\partial \mathrm{L}(a, b)}{\partial \theta_{1}}\left(\theta_{1}-a\right)+\frac{\partial \mathrm{L}(a, b)}{\partial \theta_{2}}\left(\theta_{2}-b\right)$

泰勒展開只在接近展開點的處的函數值是近似準確的，故需要對更新參數時加以限制，以保證在展開點附近。我們希望參數更新的時候，整體的函數值減小，即
$\mathrm{L}(\theta) - \mathrm{L}(a, b) \approx \frac{\partial \mathrm{L}(a, b)}{\partial \theta_{1}}\left(\theta_{1}-a\right)+\frac{\partial \mathrm{L}(a, b)}{\partial \theta_{2}}\left(\theta_{2}-b\right) < 0 \\ \frac{\partial \mathrm{L}(a, b)}{\partial \theta_{1}}\left(\Delta\theta_1\right)+\frac{\partial \mathrm{L}(a, b)}{\partial \theta_{2}}\left(\Delta\theta_2\right) < 0 \\ \nabla L · \Delta\theta < 0$
其中 $\nabla L$ 是一個向量，當 $\Delta\theta$ 和 $\nabla L$ 方向相反的時候，乘積爲負值，且最大。故可以得出應該爲梯度的反方向。同時需要注意，應該保證要在展開點的附近纔可以，否則一階泰勒展開不成立，則引入學習速率 $\eta$ ，即：
$\nabla L · \eta \Delta\theta <0$
理論上需要保證無限接近展開點，計算出的值纔是準確的，實際操作過程中，保證較小並且合適的學習速率就可以。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[李宏毅機器學習] 3. 梯度下降

文章目錄

思維導圖

回顧

Tip1: 調整學習速率

Adagrad

Tip2: 隨機梯度下降

Tip3: 特徵縮放

標準化

梯度下降的數學原理

泰勒展開

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

TensorFlow出現Found Inf or NaN global norm的排查和解決辦法

CS224n 深度自然語言處理(三) Note - Word Window Classification, Neural Networks

知識圖譜表示學習 TransE: Translating Embeddings for Modeling Multi-relational Data

CS224n 深度自然語言處理(四) Note - Backpropagation and computation graphs

知識圖譜表示學習 TransH: Knowledge Graph Embedding by Translating on Hyperplanes

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

[李宏毅 機器學習] 3. 梯度下降

文章目錄

思維導圖

回顧

Tip1: 調整學習速率

Adagrad

Tip2: 隨機梯度下降

Tip3: 特徵縮放

標準化

梯度下降的數學原理

泰勒展開

[李宏毅機器學習] 3. 梯度下降