深度學習系列（七）優化算法（梯度下降、動量法、AdaGrad算法、RMSProp算法、AdaDelta算法、Adam算法） 2020.6.24

原創

思源湖的鱼

2020-07-03 22:46

前言

在訓練模型時，會使⽤優化算法不斷迭代模型參數以降低模型損失函數的值
本節詳細學習常用的優化算法

梯度下降
動量法
AdaGrad算法
RMSProp算法
AdaDelta算法
Adam算法

1、優化算法的挑戰

優化算法的⽬標函數通常是⼀個基於訓練數據集的損失函數
優化的⽬標在於降低訓練誤差

通常會遇上兩個挑戰

局部最小值
鞍點

局部最小值

如果f(x)在x上的值⽐在x鄰近的其他點的值更小，那麼f(x)可能是⼀個局部最小值（local minimum）
如果f(x)在x上的值是⽬標函數在整個定義域上的最小值，那麼f(x)是全局最小值（global minimum）

當⼀個優化問題的數值解在局部最優解附近時，由於⽬標函數有關解的梯度接近或變成零，最終迭代求得的數值解可能只令⽬標函數局部最小化而⾮全局最小化

鞍點

梯度接近或變成零也可能是由於當前解在鞍點（saddle point）附近
如果在深度學習訓練過程中，損失函數落到了局部最小值和鞍點上，必然會造成模型效果不是最佳
這是優化算法需要解決的問題

2、梯度下降

梯度下降應該是最常見的優化算法了
對於f(x)，其梯度是

f沿着單位向量u的方向導數是

我們希望找到f下降最快的方向，來迅速找到f的最小值
當u在梯度⽅向∇f(x)的相反⽅向時，⽅嚮導數被最小化
故有梯度下降

式中的超參數稱作學習率
調整學習率也就是我們日常所說的調參了

隨機梯度下降

當訓練數據樣本數很⼤時，梯度下降每次迭代的計算開銷很⾼
隨機梯度下降（stochastic gradient descent，SGD）減少了每次迭代的計算開銷
在隨機梯度下降的每次迭代中，我們隨機均勻採樣⼀個樣本索引

這是對梯度的無偏估計

小批量隨機梯度下降

傳統的是對整個樣本集進行梯度下降
隨機梯度下降則是每次抽取一個樣本
那我們同樣可以每次抽取一小批樣本B
得到梯度

其梯度下降

3、動量法

梯度下降根據⾃變量當前位置，沿着當前位置的梯度更新⾃變量
如果⾃變量的迭代⽅向僅僅取決於⾃變量當前位置，這可能會帶來⼀些問題
動量法創建速度變量v
對小批量隨機梯度下降的迭代做修改

動量超參數

4、AdaGrad算法

梯度下降和動量法使用統⼀的學習率，難以適應所有維度
引入AdaGrad算法，根據⾃變量在每個維度的梯度值的⼤小來調整各個維度上的學習率

將小批量隨機梯度g按元素平⽅後累加到變量s
將⽬標函數⾃變量中每個元素的學習率通過按元素運算重新調整

其中，

不過，當學習率在迭代早期降得較快且當前解依然不佳時，AdaGrad算法在迭代後期
由於學習率過小，可能較難找到⼀個有⽤的解

5、RMSProp算法

RMSProp算法對AdaGrad算法做了⼀點小小的修改
該算法源⾃Coursera上的⼀⻔課程“機器學習的神經⽹絡”

可以看到，是參考了動量法
使得⾃變量每個元素的學習率在迭代過程中不再⼀直降低

6、AdaDelta算法

AdaDelta算法也是針對AdaGrad算法的改進

相較於RMSProp算法
AdaDelta算法維護了⼀個額外的狀態變量Δxt

然後更新自變量

7、Adam算法

Adam算法在RMSProp算法基礎上對小批量隨機梯度也做了指數加權移動平均

做偏差修正

更新自變量

結語

較爲全面的學習了常用的優化算法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

大模型區域落地再加速！百度“文心中國行”西部首站落地成都錦江

4 月 24 日，“文心中國行”西部地區首站落地成都錦江。成都市錦江區白鷺灣新經濟總部功能區、錦江區投資促進局與百度飛槳攜手合作，打造成都人工智能的新產業、新模式、新業態。來自成都政產學研各界的領導、專家、企業嘉賓，共同探討如何降低 AI

2024-04-25 11:41:53

文心中國行走進成都！4 月 24 日一起把握大模型時代的產業新機遇

4 月 24 日，文心中國行將走進成都。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，從人工智能政策解讀、大模型技術，到產業創新應用的實踐案例，讓參會者全方位瞭解大模型時期的發展與創新機遇。大會還特別

2024-04-23 11:41:07

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

京東廣告研發——效率爲王：廣告統一檢索平臺實踐

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

南京大學×百度“星河杯”AI 大模型創意校園賽正式起航

3 月 9 日，教育部長懷進鵬在十四屆全國人大二次會議民生主題記者會上，談到了人工智能+教育的重要性。他強調，要把人工智能技術深入到教育教學和管理的全過程和全環節，研究其有效性和適應性，讓青年一代更加主動地學習，讓教師更加創造性地教學。

2024-04-28 11:42:11

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

賦能開發者，騰訊雲與你共探AI提升十倍生產力之路

引言 AI 技術發展迅速，對於開發者而言，AI 既可能是提高生產力的神兵利器，也可能成爲職業生涯潛在的“威脅”。開發者如何與 AI 協同進化，提升個人能力和價值；如何利用提高 AI 生產力，推動企業創新，實現降本提效

2024-04-28 11:11:17

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

技術實踐｜大模型內容安全藍軍的道與術

1、引子大語言模型（LLM）在2023年大放異彩，在許多領域展現出強大的能力，包括角色扮演，文本創作，邏輯推理等。然而，隨着其應用範圍的擴大，生成內容的安全問題也日益凸顯。這包括但不限於生成虛假信息、有害內容、偏見或歧視性言論等。這些問題

2024-04-26 09:33:23

HCDG天津站精彩回顧 | AI高效開發， ModelArts技術動手工作坊

4月20日， HCDG城市行·天津站——“極快至簡靈活部署”我想象中的AI高效開發ModelArts技術工作坊圓滿舉辦。活動特邀來自華爲雲DTSE、華爲云云享專家、以及天津軟件技術協會的夥伴企業專家們爲與會開發者帶來一場別開生面的技術交流

2024-04-25 22:33:41

大模型Chatbots評估新視角：結合定性與程序方法的實踐探索

隨着人工智能技術的不斷進步，大型語言模型Chatbots已經成爲了人們生活中不可或缺的一部分。無論是在客戶服務、智能助手，還是在線教育、心理諮詢等領域，Chatbots都展現出了巨大的應用潛力。然而，如何有效地評估Chatbots的性能並不

2024-04-25 11:30:02

西安站開營！AI 編碼助手通義靈碼幫大學生“整活兒”

如何更好地與 AI 爲伴，做時代的先進開發者？4 月 17 日，阿里雲推出的 AI 編程助手通義靈碼與雲工開物“高校訓練營”走進西安多所高校開啓實操培訓，結合 AI 輔助編程的發展背景、通義靈碼的具體能力和應用實操，幫助在校大學生了解人工智

2024-04-24 21:12:06

沙特2030年願景和對中國IT企業的市場機會分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

2024-04-23 22:24:54

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

24小時熱門文章

最新文章

最新評論文章