訓練過程中Loss函數出現Nan的可能原因

原創

2020-07-05 02:54

綜合我做過的一些實驗，記錄一下實驗過程中Loss出現Nan的一些可能原因：

最簡單的，學習率過大。
BTW, 學習率過大還可能導致收斂到一個定值之前實驗室的師姐拿雲圖做DNI分類的結果最後都收斂到同一個數值，結果我後來一看也是學習率過大導致的。

其中的原因我猜測是使用了ReLU激活函數以後，某一步跨入了一個點，使得出現了dead neuron的現象，然後前面的參數全部不更新，導致最後的結果變成了定值。所以ReLU的學習率一般不會很大。
壞樣本的加入
比如一個樣本的全是0，你減去均值除以方差以後就變成了nan，你自己不會發現，進入神經網絡以後會使得突然loss也變nan了（因爲反傳是需要用到的）

參考
你自己定義的某個Tensor沒有初始化
比如代碼中實現一些簡單的weight matrix的時候，你直接使用torch.FloatTensor作爲訓練參數，但是FloatTensor本身的初始化是不適用於深度神經網絡的，此時最好用nn.init.kaiming_normal()之類的函數初始化一下。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

打開神經網絡的黑箱子

卷積神經網絡每個卷積核提取不同的特徵。每個卷積覈對輸入進行卷積，生成一個feature map，這個feature map即體現了該卷積核從輸入中提取的特徵，不同的feature map顯示了圖像中不同的特徵。淺層卷積核提取：邊緣、顏

2024-05-06 00:41:39

電子合同一站式解決方案 | 京東雲技術團隊

一：平臺定位和優勢（爲什麼建） 1.1、平臺定位由京東科技業務中臺主導發起，聯合法律部、安全部共建，旨在爲業務提供電子合同管理的中臺化能力，當前已形成一套成熟的“全線上、全生命週期電子合同管理系統”，可提供包括合同模板創建、模板預覽、

2024-05-06 23:16:37

迅爲RK3568開發板可以接哪些好玩的模塊

iTOP-3568開發板採用瑞芯微RK3568處理器，內部集成了四核64位Cortex-A55處理器。主頻高達2.0Ghz，RK809動態調頻。集成了雙核心架構GPU，ARM G52 2EE、支持OpenGLES1.1/2.0/3.2、Op

2024-05-06 22:54:29

迅爲RK3568開發板瑞芯微人工智能AI鴻蒙Linux安卓開發學習

PU：iTOP-3568開發板採用瑞芯微RK3568處理器，內部集成了四核64位Cortex-A55處理器。主頻高達2.0Ghz，RK809動態調頻。集成了雙核心架構GPU，ARM G52 2EE、支持OpenGL ES1.1/2.0/3.

2024-05-06 22:54:29

動詞算子式通用代碼生成器的根本原理，動詞算子和域對象的笛卡爾積

如果您使用過動詞算子式通用代碼生成器，比如光，和平之翼，時空之門，仙童或者蓮花。一定對這一類代碼生成器的適應性，彈性和靈活性有深刻的體會。並好奇這一切是如何達到的。其實，這一切的特性都源於動詞算子式代碼生成器的根本原理：動詞算子和域對象的

2024-05-05 22:58:28

Baidu Comate：“AI +”讓軟件研發更高效更安全

4月27日，百度副總裁陳洋出席由全國工商聯主辦的第64屆德勝門大講堂，並發表了《深化大模型技術創新與應用落地，護航大模型產業平穩健康發展》主題演講。陳洋表示，“人工智能+”成爲催生新質生產力的重要引擎，對於企業而言，務必要抓住這一重要機遇，

2024-04-30 21:33:30

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

三喜臨門！信必優連收三家金融行業客戶表揚信

近日，信必優陸續收到全球知名銀行客戶、中國證券行業TOP級客戶、中國期貨行業TOP級客戶的表揚信。客戶高度讚揚我司員工在工作中表現突出，以積極主動、團結協作的工作態度和出色的技術能力，在技術團隊中做出表率，爲項目的順利交付做出重要貢獻。

2024-04-29 22:32:22

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

帶你開發一個視頻動態手勢識別模型

本文分享自華爲雲社區《CNN-VIT 視頻動態手勢識別【玩轉華爲雲】》，作者： HouYanSong。 CNN-VIT 視頻動態手勢識別人工智能的發展日新月異，也深刻的影響到人機交互領域的發展。手勢動作作爲一種自然、快捷的交互方式，在

2024-04-29 10:33:12

大模型將進一步推動AI數據發展，行業數據類型更加豐富

爲支撐加快推進新型工業化，發展新質生產力，探索數據要素與智能算力網絡協同發展路徑，促進數字技術與實體經濟深度融合，中國信息通信研究院作爲新型基礎設施建設者，科技創新的領軍者，在2024星火生態大會期間，舉辦了"數據要素及智能算力網絡創新專題

2024-04-29 00:55:15

南京大學×百度“星河杯”AI 大模型創意校園賽正式起航

3 月 9 日，教育部長懷進鵬在十四屆全國人大二次會議民生主題記者會上，談到了人工智能+教育的重要性。他強調，要把人工智能技術深入到教育教學和管理的全過程和全環節，研究其有效性和適應性，讓青年一代更加主動地學習，讓教師更加創造性地教學。

2024-04-28 11:42:11

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

賦能開發者，騰訊雲與你共探AI提升十倍生產力之路

引言 AI 技術發展迅速，對於開發者而言，AI 既可能是提高生產力的神兵利器，也可能成爲職業生涯潛在的“威脅”。開發者如何與 AI 協同進化，提升個人能力和價值；如何利用提高 AI 生產力，推動企業創新，實現降本提效

2024-04-28 11:11:17

24小時熱門文章

最新文章

最新評論文章