深度學習最優化（四）—— 動量法/Nesterov/Adagrad/Adadelta/RMSprop/Adam/Nadam

原創

manmanxiaowugun

2020-06-13 20:36

1. SGD

現在的SGD一般都指小批量梯度下降，即每一次迭代計算mini-batch的梯度，然後對參數進行更新。

$g_{t}= \triangledown _{\theta_{t-1}}J(\theta_{t-1})$

$\triangle \theta _t = -\eta \ast g_t$

$\theta _t = \theta _{t-1}+\triangle \theta _t$

其中 $\theta _t$ 是模型參數， $J(\theta _{t-1})$ 是模型目標函數，是目標函數的梯度， $\eta$ 是學習率。

難點（缺點）：

（1）學習率的選擇。過低收斂緩慢，過高無法收斂。

（2）“之字形”的出現，即在陡谷（一種在一個方向的彎曲程度遠大於其他方向的表面彎曲情況）處震盪。如下圖所示

2. 動量法（Momentum）

$m_t=\mu \ast m_{t-1}-\eta g_t$

$\theta _t = \theta _{t-1}+m _t$

其中是一階動量， $\mu$ 是動量因子。

優點：改善“之字形”震盪，動量項在梯度指向方向相同的方向逐漸增大，對梯度指向改變的方向逐漸減小（不斷中和）。

3. Nesterov

我們使用 $\mu \ast m_{t-1}$ 來移動 $\theta$ ，通過計算 $\theta_{t-1}+\mu \ast m_{t-1}$ ，我們能夠得到一個下次參數位置的近似值——也就是能告訴我們參數大致會變爲多少。那麼，通過基於未來參數的近似值而非當前的參數值計算相得應罰函數 $J(\theta_{t-1}+\mu \ast m_{t-1})$ 並求偏導數，我們能讓優化器高效地「前進」並收斂：

$m_t=\mu \ast m_{t-1}-\eta \triangledown J(\theta _{t-1}+\mu \ast m_{t-1})$

$\theta _t = \theta _{t-1}+m_t$

4. Adagrad

解決學習率的選擇問題，對學習率進行自適應約束。

$n_t = n_{t-1}+g_t^2$

$\triangle \theta _t = -\frac{\eta }{ \sqrt{n_t+\varepsilon }}\ast g_t$

$\theta _t = \theta _{t-1}+\triangle \theta _t$

其中 $\varepsilon$ 是個很小的數，爲了確保分母不爲0，是梯度平方的累積，爲二階動量。

優點：不需要手工調節學習率。

缺點：隨着時間的增長，單調增長， $\triangle \theta _t$ 單調減少，有可能過早的變爲0，訓練過早的結束。而且依然依賴與人工設定的學習率。

5. RMSprop

由於AdaGrad單調遞減的學習率變化過於激進，RMSprop只關注過去一段時間的梯度平均值，離的時間越遠越不重要。

$n_t = \beta_2 n_{t-1}+(1-\beta_2 )g_t^2$

$\triangle \theta _t = -\frac{\eta }{ \sqrt{n_t+\varepsilon }}\ast g_t$

$\theta _t = \theta _{t-1}+\triangle \theta _t$

6. Adadelta

RMSprop依然需要自己設定全局學習率，因此Adadelta在RMSprop的基礎上，用參數更新的平方來替代全局學習率的位置，這樣就可以省略全局學習率了。

$n_t = \beta_2 n_{t-1}+(1-\beta_2 )g_t^2$

$V_t = \gamma V_{t-1}+(1-\gamma )\triangle\theta _t^2$

$\triangle \theta _t = -\frac{ \sqrt{V_t+\varepsilon}}{ \sqrt{n_t+\varepsilon }}\ast g_t$

$\theta _t = \theta _{t-1}+\triangle \theta _t$

7. Adam

融合一階動量和二階動量。

$m_t=\beta_1 m_{t-1}+(1-\beta_1) g_t$

$n_t = \beta_2 n_{t-1}+(1-\beta_2 )g_t^2$

因爲當和一開始被初始化爲 0 時，最初的幾步通常會偏向0，表示參數更新太慢。

他們使用偏差糾正係數，來修正一階矩和二階矩的偏差：

$\hat{m_t}=\frac{m_t}{1-\beta_1^t}$

$\hat{n_t}=\frac{n_t}{1-\beta_2^t}$

$\triangle \theta _t = -\eta \ast \frac{\hat{m_t} }{ \sqrt{\hat{n_t}+\varepsilon }}$

$\theta _t = \theta _{t-1}+\triangle \theta _t$

8. Nadam

Nesterov + Adam = Nadam

公式還沒完全理解先不放了。

不知道算是原創還是轉載，放上幾篇參考網址吧：

https://zhuanlan.zhihu.com/p/22252270

https://www.cnblogs.com/shixiangwan/p/7532858.html

https://zhuanlan.zhihu.com/p/32230623

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

618網購節，電商能擋住惡意網絡爬蟲的攻擊嗎？

2023年，杭州中院審結了兩起涉及“搬店軟件”的不正當競爭案件。本案的原告是國內某大型知名電子商務平臺的運營主體，而被告則是開發了一款名爲“某搬家快速商品上貨批量發佈”的複製軟件，被控非法獲取平臺商品信息並在其他服務市場銷售。根據原告的訴

2024-06-07 00:14:57

大模型在推薦系統中的精準推薦策略與實踐

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

原來Stable Diffusion是這樣工作的

stable diffusion是一種潛在擴散模型，可以從文本生成人工智能圖像。爲什麼叫做潛在擴散模型呢？這是因爲與在高維圖像空間中操作不同，它首先將圖像壓縮到潛在空間中，然後再進行操作。在這篇文章中，我們將深入瞭解它到底是如何工作的,還

2024-06-06 21:38:48

什麼是LLM大模型訓練，詳解Transformer結構模型

本文分享自華爲雲社區《LLM 大模型學習必知必會系列(四)：LLM訓練理論篇以及Transformer結構模型詳解》，作者：汀丶。 1.模型/訓練/推理知識介紹深度學習領域所謂的“模型”，是一個複雜的數學公式構成的計算步驟。爲了便於理解

2024-06-04 11:09:34

Prompt Tuning：大模型微調實戰

隨着深度學習技術的不斷髮展，大模型在各種任務中取得了顯著的成果。然而，大模型的訓練需要大量的數據和算力，導致在實際應用中受到限制。爲了解決這個問題，研究者們提出了微調的方法，即使用預訓練模型在少量數據上進行訓練，使其適應特定的任務。在Pr

2024-06-03 12:14:42

走進京東“卓越研效架構師”首期研習營圓滿收官

五月的北京，春深半夏，花開滿城。由全國雲計算技術行業產教融合共同體牽頭，攜手工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會以及京東雲共同主辦的“走進京東——卓越研效架構師”研習營，於5月17-18日和24-26日在北京京東

2024-05-31 23:55:49

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

基於Fluid與JindoCache的大模型訓練加速實踐

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

智能高效的IDE GoLand v2024.1全新發布 - 進一步升級AI輔助工具

GoLand 使 Go 代碼的閱讀、編寫和更改變得非常容易。即時錯誤檢測和修復建議，通過一步撤消快速安全重構，智能代碼完成，死代碼檢測和文檔提示幫助所有 Go 開發人員，從新手到經驗豐富的專業人士，創建快速、高效、和可靠的代碼。立即獲取G

2024-05-21 12:19:26

24小時熱門文章

最新文章

最新評論文章