梯度消亡(Gradient Vanishing)和梯度爆炸(Gradient Exploding)

原創

2020-05-11 09:36

文章目錄

一、梯度消失

二、梯度爆炸

2.1 解決方法

一、梯度消失

1.1 定義

神經⽹絡靠輸⼊端的⽹絡層的係數逐漸不再隨着訓練⽽變化，或者
變化⾮常緩慢。隨着⽹絡層數增加，這個現象越發明顯

1.2 梯度消亡(Gradient Vanishing)前提

使⽤基於梯度的訓練⽅法（例如梯度下降法）
使⽤的激活函數具有輸出值範圍⼤⼤⼩於輸⼊值的範圍，例如
logistic（邏輯斯函數）， tanh（雙曲正切）

1.3 產生的原因

梯度下降法依靠理解係數的微⼩變化對輸出的影響來學習⽹絡的係數的值。如果⼀個係數的微⼩變化對⽹絡的輸出沒有影響或者影響極⼩，那麼就⽆法知曉如何優化這個係數，或者優化特別慢。造成訓練的困難。

使用梯度下降法訓練神經網絡，如果激活函數具備將輸出值的範圍相對於輸入的值大幅度壓縮，那麼就會出現梯度消亡。
例如，雙曲正切函數(tanh) 將-∞到∞的輸入壓縮到-1到+1之間。除開在輸入爲-6,+6之間的值，其它輸入值對應的梯度都非常小，接近0.

1.4 解決方案

激活函數ReLu: f(x) = max(0, x)
輸入大於0,梯度爲1，否則0.
激活函數LeakyReLu: f(x) = max(ax,x)
輸入大於等於0，梯度爲1，否則爲a
採⽤不使⽤梯度的⽹絡訓練⽅法： https://link.springer.com/article/10.1007/s10898-012-9951-y(Derivativefree optimization: a review of algorithms and comparison of software implementations)
3.1.基於遺傳、進化算法
https://www.ijcai.org/Proceedings/89-1/Papers/122.pdf
https://blog.coast.ai/lets-evolve-a-neural-network-with-a-genetic-algorithm-code-included-8809bece164
3.2. 粒⼦羣優化（Particle Swarm Optimization, PSO）
https://visualstudiomagazine.com/articles/2013/12/01/neural-network-training-using-particle-swarm
optimization.aspx
https://ieeexplore.ieee.org/document/1202255/?reload=true

二、梯度爆炸

當gradient<1時產生梯度消失，gradient>1產生梯度爆炸，定義、產生原因都類似。

2.1 解決方法

梯度剪切（Gradient Clipping）：其思想是設置一個梯度剪切閾值，然後更新梯度的時候，如果梯度超過這個閾值，那麼就將其強制限制在這個範圍之內。

其他解決方法：https://blog.csdn.net/qq_25737169/article/details/78847691

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

怎麼使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

一文深度剖析 ColBERT

近年來，向量搜索領域經歷了爆炸性增長，尤其是在大型語言模型（LLMs）問世後。學術界開始重點關注如何通過擴展訓練數據、採用先進的訓練方法和新的架構等方法來增強 embedding 向量模型。在之前的文章中，我們已經深入探討了各種類型的 e

2024-05-24 21:25:22

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

O2OA(翱途)開發平臺爲待辦創建配置郵件通知

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]的消息機制允許開發者通過配置實現郵件通知。本篇主要闡述如何實現待辦消息的郵件通知。一、先決條件： 1、O2Server服務器正常運行，系統安裝部署請參考

2024-05-09 23:10:17

理論+實踐，帶你瞭解分佈式訓練

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

打開神經網絡的黑箱子

卷積神經網絡每個卷積核提取不同的特徵。每個卷積覈對輸入進行卷積，生成一個feature map，這個feature map即體現了該卷積核從輸入中提取的特徵，不同的feature map顯示了圖像中不同的特徵。淺層卷積核提取：邊緣、顏

2024-05-06 00:41:39

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

輕鬆復現一張AI圖片

輕鬆復現一張AI圖片現在有一個非常漂亮的AI圖片，你是不是想知道他是怎麼生成的？今天我會交給大家三種方法，學會了，什麼圖都可以手到擒來了。需要的軟件在本教程中，我們將使用AUTOMATIC1111 stable diffusio

2024-04-22 21:30:45

01-大語言模型發展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

深入解析大模型NLP LLaMa

在人工智能和自然語言處理（NLP）領域，LLaMa（Language-Model-driven Learning, aMplification and aDAptation）流程已經成爲處理大規模模型訓練的關鍵技術。它基於語言模型的學習、增

2024-04-18 11:29:54

文檔圖像大模型

隨着信息技術的快速發展，文檔處理已經成爲日常生活和工作中不可或缺的一部分。傳統的文檔處理方法往往需要人工參與，效率低下且易出錯。近年來，隨着深度學習技術的突破，文檔圖像大模型在智能文檔處理領域嶄露頭角，爲提升文檔處理性能提供了新的解決方案。

2024-04-18 11:29:52

24小時熱門文章

最新文章

最新評論文章