改善深層神經網絡：超參數調整、正則化以及優化——2.9學習率衰減

原創

2020-02-27 10:15

加快學習算法的一個辦法就是隨着時間慢慢減少學習率，我們將之稱爲學習率衰減。

假設要使用mini-batch梯度下降法，mini-batch數量不大，大概64或者128個樣本。在迭代過程中會有噪聲，迭代會不斷向最小值下降，但是不會精確地收斂，所以算法最後在最小值點附近擺動，並不會真正地收斂。這是因爲用的 $\alpha$ 是固定值，不同的mini-batch中有噪音，但要慢慢減少學習率 $\alpha$ 的話，在初期的時候 $\alpha$ 學習率還較大，學習還是相對較快，但是隨着 $\alpha$ 變小，步伐也會變慢變小。所以最後曲線會在最小值附近的一小塊區域擺動，而不是在訓練過程中大幅度地在最小值附近擺動。所以慢慢減少 $\alpha$ 的本質在於，在學習初期能承受較大的步伐，但當開始收斂的時候，小一些的學習率能讓你步伐小一些。

我們可以將 $\alpha$ 學習率設爲 $\alpha=\frac{1}{1+decay_{rate}*epoch_{num}}*\alpha_0$ 注意公式中的衰減率 $decay_{rate}$ 是另一個需要調整的超參數。舉一個具體的例子，設 $\alpha_0=0.2$ ，衰減率 $decat_{rate}=1$ ，那麼在第一個epoch中代入公式中可以得到 $\alpha_1=\frac{1}{1+1*1}*0.2=0.1$ 。

根據學習率更新公式，學習率呈遞減趨勢。如果想學習率衰減，要做的是嘗試不同的值，包括超參數 $\alpha_0$ 以及超參數衰減率，找到合適的值。除了這個學習率衰減的公式，還可以用其它的公式。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

吳恩達深度學習筆記02——改善深層神經網絡3超參數調試

一、超參數調試處理 1、重要程度排序目前已經講到過的超參數中，重要程度依次是：最重要：學習率 α；其次重要： β：動量衰減參數，常設置爲 0.9； #hidden units：各隱藏層神經元個數； mini-bat

2020-07-07 22:37:47

吳恩達深度學習筆記02——改善深層神經網絡1深度學習的實用層面

一、數據劃分：訓練 / 驗證 / 測試集應用深度學習是一個典型的迭代過程。對於一個需要解決的問題的樣本數據，在建立模型的過程中，數據會被劃分爲以下幾個部分：訓練集（train set）：用訓練集對算法或模型進行訓練過程；

2020-07-07 22:37:47

吳恩達第四課第一週編程作業

本次作業目的構建一個簡單的卷積網絡下載地址鏈接：https://pan.baidu.com/s/1h6gy7kDwzUOHDssnEw7lVQ 提取碼：nctg 代碼原生代碼 import numpy as np impo

2020-07-02 21:49:04

【吳恩達深度學習】【神經網絡和深度學習】第三章第八節激活函數的導數

一、激活函數的導數有關每個函數的導數在前面的blo中已經很詳細的寫過了，這個不加贅述。值得一提的是有關ReLU函數在x=0處沒有導數的問題。由於可以想想的是，我們的訓練集的分散且巨大的，所以我們最終0點的情況非常少，可以忽略不計，因此

2020-06-17 03:20:26

【吳恩達深度學習】【神經網絡和深度學習】第三章第十一節隨機初始化

一、爲什麼隨機初始化在之前有關梯度下降法的blo中我們討論了一個係數是如何在一個神經網絡中進行迭代的，而一個迭代過程，不知道知道迭代是如何進行的，還要知道，迭代的初值是什麼，這節課討論的就是這個問題。那既然初始化是必要的，爲什麼一定要

2020-06-17 03:20:26

【吳恩達深度學習】【神經網絡和深度學習】第三章第三節計算神經網絡的輸出

一、正向傳播正向傳播是指數據從X傳入到神經網絡，經過各個隱藏層得到最終輸出的過程在計算一個神經網絡的輸出的時候，如果已知輸入，那麼就是一個標準的正向傳播過程還是跟直接blog一樣的例子在這個例子中，我們實際上是在對每一個輸入，以

2020-06-17 03:20:26

【吳恩達深度學習】【神經網絡和深度學習】第三章第四節多個例子中的向量化

一、爲什麼能夠向量化大部分原因和前面blog中描述是一致的，這裏又有了一點心得思考。如果我們在後面要進行梯度下降法或者別的什麼方法進行迴歸計算或者別的深度學習的時候，我們總是要對整個神經網絡的參數進行調整的，那麼這個調整的過程需要確定

2020-06-17 03:20:26

【吳恩達深度學習】【神經網絡和深度學習】第三章第六節激活函數

一、激活函數定義我們在研究一個神經元的時候（這裏指生物學中的神經元），我們知道其有軸突和樹突，可以傳導衝動，同時我們還知道，衝動在傳導的時候有一個閾值，低於某個值的衝動無法被傳導或者傳道的時候減弱了，所以其實神經衝動的傳導是一個非線性的

2020-06-17 03:20:26

【吳恩達深度學習】【神經網絡和深度學習】第三章第二節神經網絡表示

一、一些有關神經網絡的符號約定這個在上篇blog中提了一部分，這裏補充剩下的一部分我們對於加權函數一般記爲z=w^T x+b，而激活函數一般使用a=g(z)表示對於最終的輸出我們不妨記爲y hat，儘管這個真的沒有什麼特別的意義

2020-06-17 03:20:26

【吳恩達深度學習】【神經網絡和深度學習】第三章第五節向量化實現的解釋

一、這節設置的目的在前面的四節課以及之前學習中，吳恩達已經很詳細講解了向量化及其好處，這節課卻反過來教學生如何進行向量化以及向量化爲什麼是對的，個人認爲這節課的設置是有一些多餘的，猜測其可能原因是想多舉出一些例子讓學生更好的理解淺層神

2020-06-17 03:20:26

【吳恩達深度學習】【神經網絡和深度學習】第三章第九節神經網絡的梯度下降法

一、梯度下降法有關什麼是梯度下降法，這在之前幾周的學習中我們已經掌握了，這裏簡要分析。對於一個函數，我們在某一個點的next操作可以認爲是跟這個點的導數有關的，因爲導數會指引我們走向極值。然後我們每次根據這個點的導數向前走一步的過程中

2020-06-17 03:20:26

【吳恩達深度學習】【神經網絡和深度學習】第三章第七節我們爲什麼需要非線性激活函數？

一、爲什麼不能用非線性函數假如我們的神經網絡的所有激活函數都是線性的函數，我們不妨想這麼一個問題既然兩個線性的函數是可以複合的，所以一個只由線性函數構成的神經網絡的所有函數能不能複合成一個函數呢？顯然是可以的，線性函數直接是可以自

2020-06-17 03:20:26

【吳恩達深度學習】【神經網絡和深度學習】第三章第一節神經網絡概覽

本章節主要講述的是淺層神經網絡。而這一節則是對整個章節的概覽一、神經元神經網絡，神經元連接而成的網絡如圖就是一個神經元，可以看出，有輸出，有輸出，中間經過了一些運算，這將來接下來的blog中進行討論。這是一個基於losgiti

2020-06-17 03:20:26

吳恩達第二課第一週編程作業

鏈接：https://pan.baidu.com/s/1qd3ocbfnmXdXUx-TjhlM3A 提取碼：93cz

2020-06-06 15:07:25

吳恩達第一課第二週編程作業

鏈接：https://pan.baidu.com/s/1ENynOEU33LFsoEln3HeZGw 提取碼：0spc 本次作業是完成一個“識別貓”的神經網絡網絡搭建。代碼： import numpy as np impor

2020-06-06 15:07:25

24小時熱門文章

最新文章

最新評論文章