深度學習中的Momentum算法原理

原創

2020-07-08 06:58

一、介紹

在深度學習中，Momentum（動量）算法是對梯度下降法的一種優化，它將物理學中物體的運動理論和梯度下降相結合，其特點是直觀易懂，已成爲目前非常流行的深度學習優化算法之一。

在介紹動量優化算法前，需要對 指數加權平均法 有所瞭解，它是動量優化算法的理論基礎，可參見本人另外一篇博文：深度學習：指數加權平均；其次，需要對物理運動理論稍有了解，以便在直觀層面更好的理解該算法。

二、背景

下圖表明瞭傳統的梯度下降法會存在的問題，即訓練軌跡會呈現鋸齒狀，這無疑會大大延長訓練時間。同時，由於存在擺動現象，學習率只能設置的較小，纔不會因爲步伐太大而偏離最小值。

三、優化思路

一方面，由於存在鋸齒擺動現象，另一方面學習率又不能設置的稍大，使得收斂速度非常慢。其實，一個很樸素的想法便是讓縱向的擺動儘量小，同時保持橫向的大方向不變，適當提高橫向運動的速率。

這個時候便是指數加權平均派上用場的時候了！每一次的梯度更新對應一個向量，通過指數加權平均，縱向的分量基本可以抵消，原因是鋸齒狀存在一上一下的配對向量，方向是基本反向的。而橫向的方向基本沒有變化，因爲從長期的一段時間來看，大方向始終指向最小值。通過指數加權平均優化後，我們期望訓練的軌跡將會如下圖所示。

這樣一來，收斂速度將會提高很多。因爲縱向的擺動通過加權平均基本消失，此時，我們可以適當增大學習率，使得橫向的運動稍微提高一點。

四、新的梯度更新規則

有了上面的分析後，我們先來看看如何更新梯度。首先給出未優化前的梯度更新規則，其中 $\eta$ 表示學習率。

$w\rightarrow w^{'}=w-\eta\frac{\partial C}{\partial w}$

$b\rightarrow b^{'}=b-\eta\frac{\partial C}{\partial b}$

可以把梯度的更新想象成一個球從某個點開始向下運動。結合指數加權平均，引入平均速度，只不過這個速度是有方向的，它在梯度下降中就表示平均梯度。我們希望通過來更新當前的速度，同時引入摩擦係數 $\beta$ ，可以設爲 0.9。那麼，根據指數加權平均，的更新規則爲

$v_w\rightarrow v^{'}_w=\beta v_w+\left ( 1-\beta \right ) \frac{\partial C}{\partial w}$

$v_b\rightarrow v^{'}_b=\beta v_b+\left ( 1-\beta \right ) \frac{\partial C}{\partial b}$

其中，第一項可以理解爲歷史平均速度，第二項可以理解爲當前的加速度，兩者相加表示當前的平均速度。根據的更新規則，梯度的更新規則變爲

$w\rightarrow w^{'}=w-\eta v_w$

$b\rightarrow b^{'}=b-\eta v_b$

我們發現，當 $\beta$ 爲 0 時，上述規則退化爲未優化前的規則，當 $\beta$ 爲 1 時，表示沒有摩擦，速度將保持不變，這在梯度下降的過程中可能會造成越過最優值。在實際開發中， $\beta$ 可以設定在 0 和 1 之間的某個值，一般取 0.9 是一個較好的選擇。

五、Momentum算法的本質

該算法將一段時間內的梯度向量進行了加權平均，分別計算得到梯度更新過程中和的大致走向，一定程度上消除了更新過程中的不確定性因素（如擺動現象），使得梯度更新朝着一個越來越明確的方向前進。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深入解析大模型NLP LLaMa

在人工智能和自然語言處理（NLP）領域，LLaMa（Language-Model-driven Learning, aMplification and aDAptation）流程已經成爲處理大規模模型訓練的關鍵技術。它基於語言模型的學習、增

2024-04-18 11:29:54

文檔圖像大模型

隨着信息技術的快速發展，文檔處理已經成爲日常生活和工作中不可或缺的一部分。傳統的文檔處理方法往往需要人工參與，效率低下且易出錯。近年來，隨着深度學習技術的突破，文檔圖像大模型在智能文檔處理領域嶄露頭角，爲提升文檔處理性能提供了新的解決方案。

2024-04-18 11:29:52

從零開始學習大模型

隨着人工智能技術的快速發展，大模型已成爲許多領域的熱門話題。然而，大模型的創建並不是一件容易的事情。在本文中，我們將從零開始學習如何創建一個大模型，幫助讀者掌握大模型的創建過程。一、數據收集創建大模型的首要任務是收集數據。數據是大模型的

2024-04-16 11:29:26

倒計時4天！百度Create AI開發者大會“大模型與深度學習技術”論壇亮點搶鮮看！

作爲人工智能的核心基礎技術，深度學習具有很強的通用性，大模型技術在深度學習的基礎上，通過構建更加龐大神經網絡模型和應用transformer等更加領先的算法，使模型的處理能力產生質的飛躍。飛槳（PaddlePaddle）以百度多年的深度學習

2024-04-12 21:33:07

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

金融領域中的大模型Lora微調：實戰應用與性能優化

隨着金融行業的快速發展，大數據和人工智能技術的應用越來越廣泛。在這個背景下，深度學習模型在金融領域的應用逐漸受到重視。然而，傳統的深度學習模型在金融場景中面臨着數據量大、模型複雜度高、計算資源有限等挑戰。爲了解決這個問題，Lora框架應運而

2024-04-11 23:28:47

RAG 修煉手冊｜一文講透 RAG 背後的技術

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

一站式解讀多模態——Transformer、Embedding、主流模型與通用任務實戰（上）

本文章由飛槳星河社區開發者高宏偉貢獻。高宏偉，飛槳開發者技術專家（PPDE），飛槳領航團團長，長期在自媒體領域分享 AI 技術知識，博客粉絲 9w+，飛槳星河社區 ID 爲 GoAI 。分享分爲上下兩期，本期分享從多模態概念與意義、任務類型

2024-04-08 11:42:41

百億大規模圖在廣告場景的應用

本文通過搜索推薦項目進行外賣搜索廣告弱供給填充，提高流量變現效率。我們提出外賣多場景異構大圖、異構大圖在線建模技術演進路線，解決外賣搜索推薦業務多渠道、即時化的挑戰。相關成果發表CIKM2023會議一篇。聯合機器學習平臺搭建大規模圖訓練、

2024-03-29 21:16:38

利用“AI換臉”冒充的求職者越來越多，HR該怎麼發現

2022年7月，美國聯邦調查局互聯網犯罪投訴中心（IC3）發佈了一份新的公告，該公告警告說，越來越多的詐騙分子正在使用“深度僞造”技術在遠程職位面試中冒充求職者，騙取企業薪資、盜取企業的商業機密。新冠疫情推動遠程辦公普及。統

2024-03-28 12:32:00

大模型推理框架：從理論到實踐的全面解析

在數據驅動的時代，深度學習技術已經滲透到各個行業，從圖像識別到自然語言處理，從推薦系統到智能客服，其應用無處不在。然而，深度學習模型的訓練和推理過程往往涉及大量數據和複雜計算，傳統的計算框架難以滿足需求。因此，大模型推理框架應運而生，成爲解

2024-03-23 00:31:01

AI大模型助力：離線生成中英雙語字幕

在數字化時代，隨着越來越多的影片、劇集、教學視頻等內容湧現，字幕作爲連接不同語言觀衆的重要橋樑，其重要性日益凸顯。傳統的字幕製作方式往往需要人工逐句翻譯和校對，效率低下且易出錯。現在，隨着AI技術的發展，我們有了更加高效和準確的方式來生成雙

2024-03-19 12:14:21

人工智能大模型原理與應用實戰：自動駕駛技術的飛躍

一、人工智能大模型的基本原理人工智能大模型，尤其是深度學習模型，通常由多層神經網絡組成。這些神經網絡通過海量的參數來建立輸入數據和輸出數據之間的複雜映射關係。在訓練過程中，模型通過反向傳播算法不斷調整參數，使得模型的預測結果與真實結果儘可

2024-03-15 00:33:20

揭祕QQ的AI繪畫大模型技術——QQGC深度解析

隨着人工智能技術的飛速發展，AI繪畫已經成爲了一個備受矚目的領域。在這個領域中，QQGC——QQ的AI繪畫大模型技術，憑藉其卓越的性能和實用性，贏得了廣大用戶的喜愛。那麼，QQGC到底是什麼？它是如何實現的呢？本文將對這些問題進行深入解析。

2024-03-08 00:41:36

LangChain與Chroma的大模型語義搜索應用

在當今的大數據時代，隨着互聯網信息的爆炸式增長，用戶對搜索技術的需求和要求也越來越高。傳統的基於關鍵詞的搜索方式已經無法滿足用戶對於精準、智能的搜索體驗。因此，基於大模型的語義搜索技術應運而生。LangChain和Chroma作爲這一領域的

2024-03-05 12:22:53

24小時熱門文章

.NET開源強大、易於使用的緩存框架 - FusionCache

最新文章

最新評論文章