系列筆記 | 深度學習連載（4）：優化技巧（上）

原創

红色石头Will

2020-06-27 10:48

點擊上方“AI有道”，選擇“星標”公衆號

重磅乾貨，第一時間送達

深度學習中我們總結出 5 大技巧：

1. Adaptive Learning Rate

我們先從Adaptive Learning Rate 談起，我Gradient Decent 中我們已經討論了：

AdaGrad ：

緊着AdaGrad的步伐，我們進一步看：

RMSProp

神經網絡訓練的時候，Error Surface 很有可能非常複雜

RMSProp其實和AdaGrad 是一樣的思路，但是具體求分母的時候，它考慮了歷史gradient和新的g的權重a 。

Momentum

如何找到最優的網絡參數呢？

optimize loss 的時候，很有可能就會遇到如下三大問題：

慢 very slow
局部最優 local minimal
鞍點 saddle point

我們可以考慮在物理世界的場景進行映射：小球從山上滑落，在局部最低的時候，他的動量讓它衝出局部。

我們複習一下梯度下降：Gradient的方向和Movement 的方向相反

當我們考慮運動的動量後：

運動不在是基於梯度，而是基於以前的運動
Movement not just based on gradient, but previous movement.

其中 movement = laststep of movement - present gradient

Momentum 雖然不能保證走出“困境”，但是這是一個巨大的進步

Adam 算法

Adam 算法是結合 RMSProp 和 Momentum，來尋找最優解。看起來比較複雜，

實際上懂 RMSProp 和 Momentum後，也就很快理解了。

2. New activation function

深度學習中我們總結出5大技巧：本節我們就從新的激活函數Relu談起。

新的激活函數 new activation function

我們知道，激活函數在基於神經網絡的深度學習中將線性變換，轉換爲非線性變換。是神經網絡能夠學到東西的重要一環。常用的激活函數有sigma， tanh 等。

從辛頓大神在2012年imagenet 中的CNN網絡中引入relu，這個神奇的看上去是線性的激活函數進入我們的視野，以後扮演者非常重要的作用。

那爲什麼要引入relu，sigma、tanh 函數有什麼缺點呢？

最主要的問題在於deep learning 無法真正deep：

如圖所示，訓練上8層之後，正確率急速下降。這是爲什麼呢？

主要原因在於梯度消失Vanishing Gradient Problem

如圖所示：傳統的激活函數，數據變化後，輸出的變化比輸入小，而且根據ChainRule, 層數越深，梯度值相乘的結果越小，小到接近於0的時候，就無法學習了。

所以，我們引入Relu，他的特點是：

1. 計算快速（導數是1）

2. 生物學原理（貌似是大腦回路，不太瞭解）

3. linear piece 可以模擬任何函數（在以後的深度學習理論會講）

4. 重點是：可以解決梯度消失的問題

Relu 可以簡化神經網絡：

雖然Relu看起來很好（有嚴格數學證明，以後會深入講），但是在小於0的時候導數爲0，對於參數學習是不利的：所以我們引入Relu的變種：leaky Relu， Parametirc Relu, 以後還會談到 Selu

本專欄圖片、公式很多來自臺灣大學李弘毅老師、斯坦福大學cs229、cs231n 、斯坦福大學cs224n課程。在這裏，感謝這些經典課程，向他們致敬！

作者簡介：武強蘭州大學博士，谷歌全球開發專家Google Develop Expert（GDE Machine Learing 方向）

CSDN：https://me.csdn.net/dukuku5038

知乎：https://www.zhihu.com/people/Dr.Wu/activities

漫畫人工智能公衆號：DayuAI-Founder

系列筆記：

系列筆記 | 深度學習連載（1）：神經網絡

系列筆記 | 深度學習連載（2）：梯度下降

系列筆記 | 深度學習連載（3）：反向傳播

推薦閱讀

（點擊標題可跳轉閱讀）

乾貨 | 公衆號歷史文章精選

我的深度學習入門路線

我的機器學習入門路線圖

最新 AI 乾貨，我在看

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一些可用於研究的GIS數據資源

國內的情況就不用說了，基本上是很難找到可以用於研究的GIS數據資源的。要麼就是收費，免費的即使能找到，能否合法合規的進行使用也是一個問題。地理信息數據還是國外比較開放一些，相當多的政府組織或者公益機構對公衆開放了下載渠道，大家可以適度獲取並

2024-05-07 14:31:18

如何在低代碼平臺中引用 JavaScript ？

引言在當今快速發展的數字化時代，企業對業務應用的需求日益複雜且多元。低代碼開發平臺作爲一個創新的解決方案，以直觀易用的設計理念，打破了傳統的編程壁壘，讓非技術人員也能輕鬆構建功能完備的Web應用程序，無需深入編碼。這一特性極大地簡化了應用

葡萄城技術團隊

2024-05-07 14:30:48

如何使用 JavaScript 獲取當前頁面幀率 FPS

可以通過計算每秒 window.requestAnimationFrame 的調用頻率來做爲 FPS 值。它接收一個回調函數，該回調函數會在瀏覽器下一次重繪之前執行。所以只要我們循環調用並記錄單位時間內的調用次數就能計算當前頁面的幀率了。

2024-05-07 14:26:58

Dash 2.17版本新特性介紹

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/dash-master 　　大家好我是費老師，不久前Dash發佈了其2.17.0版本，執行下面的命令進行最新版本Dash的安裝： pip

2024-05-07 14:21:37

人大金倉數據庫使（cai）用（keng）記錄

最近一直在用人大金倉做項目，相關的文檔相比其它流行的所謂“主流”數據庫來說還是少了點，記錄一些開發過程中遇到的問題。數據庫的模式（database_mode）在實例創建後就確定好了的，不可更改。想要改變模式只能重新init一個實例。

2024-05-07 14:17:06

《最新出爐》系列入門篇-Python+Playwright自動化測試-43-分頁測試

1.簡介分頁測試，這種一般都是公共的方法系統中都寫好了，這種一般出現是數據展示比較多的時候，會採取分頁的方法，而且比較固定，一般是沒有問題的，因此它非常適合自動化測試，但是如何使用playwright來進行分頁自動化測試了，宏哥今天就講解

2024-05-07 14:14:46

Ubuntu18 安裝NoMachine遠程桌面（解決遠程桌面延遲）

# 問題：Ubuntu 18 使用自帶的共享桌面、VNC遠程桌面延遲、降低分辨率也無效。 # 方案：最後找到安裝 NoMachine的遠程桌面，解決遠程卡頓問題根據自己操作系統選擇NoMachine for Linux進行下載官網：ht

2024-05-07 14:11:26

gdb調試FAQ

“malloc.c: No such file or directory.” 參考：https://www.cnblogs.com/gatsby123/p/11755320.html 安裝依賴 sudo apt-get install li

2024-05-07 14:08:35

大數據面試SQL每日一題系列：最高峯同時在線主播人數。字節，快手等大廠高頻面試題

大數據面試SQL每日一題系列：最高峯同時在線主播人數。字節，快手等大廠高頻面試題之後會不定期更新每日一題sql系列。 SQL面試題每日一題系列內容均來自於網絡以及實際使用情況收集，如有雷同，純屬巧合。 1.題目問題1：如下爲某直播平臺各

2024-05-07 14:06:45

工程款拖欠，農民工怎麼了？就得一直忍着委屈求全嗎？

事件背景我以前只是在新聞看到過拖欠農民工工資這樣的事，但這次是發生在自己身上了！今天晚上下班後，看見父母面露愁色，並認真的聽着父母的對話。大概意思是就是爸爸跟着工程隊包天活已經完事有一段時間了，但是包天的工資一直不給，而且聽爸爸說那意

2024-05-07 14:06:15

Canvas簡歷編輯器-我的剪貼板裏究竟有什麼數據

Canvas圖形編輯器-我的剪貼板裏究竟有什麼數據在這裏我們先來聊聊我們究竟應該如何操作剪貼板，也就是我們在瀏覽器的複製粘貼事件，並且在此基礎上聊聊我們在Canvas圖形編輯器中應該如何控制焦點以及如何實現複製粘貼行爲。在線編輯: h

2024-05-07 14:05:25

HarmonyOS 實現下拉刷新，上拉加載更多

組件介紹 PullToRefreshList允許用戶通過下拉動作來刷新列表內容，以及通過上拉動作來加載更多的數據。組件內部封裝了滾動監聽、狀態管理和動畫效果，使得開發者可以輕鬆集成到自己的項目中。 1. 實現思路封裝成可複用的公共控件：

2024-05-07 14:05:15

【轉】在 Linux 里布署 Docker

來自：百度 Docker 可以佈署在 Linux 系統上，也可以佈署在你自己的電腦上。在 Linux 系統上佈署 Docker：安裝 Docker： curl -fsSL https://get.docker.com -o get-d

2024-05-07 14:05:05

使用.NET源生成器(SG)實現一個自動注入的生成器

DI依賴注入對我們後端程序員來說肯定是基礎中的基礎了,我們經常會使用下面的代碼注入相關的service services.AddScoped<Biwen.AutoClassGen.TestConsole.Services.TestServi

2024-05-07 14:04:44

mysql索引使用基礎

1.創建&刪除 MySQL可以通過CREATE、ALTER、DDL三種方式創建一個索引。在MySQL中，使用CREATE INDEX語句可以創建索引。具體語法如下： CREATE INDEX indexName ON tableNam

2024-05-07 14:01:04

24小時熱門文章

最新文章

最新評論文章