【解決方案】pytorch中loss變成了nan | 神經網絡輸出nan | MSE 梯度爆炸/梯度消失

原創

PiperNest (同公众号)

2020-07-05 23:38

loss_func = nn.MSELoss()
loss = loss_func(val, target)

最近在跑一個項目，計算loss時用了很普通的MSE，在訓練了10到300個batch時，會出現loss tensor([[nan nan nan nan]]類似的情況。對這個異常的loss進行梯度下降，會導致net的輸出變爲nan。在網上查瞭解決方案，都不好用：

學習率過大；
loss過小（或者說除以了0 / 計算了 log(0)）；
存在髒數據輸入NaN。

試過上述方法，卻同樣無效的小夥伴可以考慮：

自己手寫 loss function ，在臨界值處改爲線性函數，知乎鏈接：【PyTorch】梯度爆炸、loss在反向傳播變爲nan；
或者參考我下面的方案。

這裏我觀察了臨界值，打了90分鐘的print，發現我的問題出在target上。

我的 target 計算公式，可能會得到 inf 的結果，導致無法正常的梯度下降。可以考慮：

檢查 target 是否正確；
計算了 target 後，將其改爲自己需要的值，如下。

target[target == float("Inf")] = 0

但請注意該方法在數學上的可行性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一鍵自動化博客發佈工具,用過的人都說好(簡書篇)

好不容易寫好了一篇博客，現在想要把它發佈到各個平臺上供大家一起欣賞？然後一個網站一個網站打開要發佈的博客站點，手動點創建文章，然後拷貝粘貼寫的markdown文件。甚至有些網站還不支持markdown格式，你還需要對格式進行轉換。每次

2024-04-30 21:30:54

Baidu Comate：“AI +”讓軟件研發更高效更安全

4月27日，百度副總裁陳洋出席由全國工商聯主辦的第64屆德勝門大講堂，並發表了《深化大模型技術創新與應用落地，護航大模型產業平穩健康發展》主題演講。陳洋表示，“人工智能+”成爲催生新質生產力的重要引擎，對於企業而言，務必要抓住這一重要機遇，

2024-04-30 21:33:30

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

三喜臨門！信必優連收三家金融行業客戶表揚信

近日，信必優陸續收到全球知名銀行客戶、中國證券行業TOP級客戶、中國期貨行業TOP級客戶的表揚信。客戶高度讚揚我司員工在工作中表現突出，以積極主動、團結協作的工作態度和出色的技術能力，在技術團隊中做出表率，爲項目的順利交付做出重要貢獻。

2024-04-29 22:32:22

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

帶你開發一個視頻動態手勢識別模型

本文分享自華爲雲社區《CNN-VIT 視頻動態手勢識別【玩轉華爲雲】》，作者： HouYanSong。 CNN-VIT 視頻動態手勢識別人工智能的發展日新月異，也深刻的影響到人機交互領域的發展。手勢動作作爲一種自然、快捷的交互方式，在

2024-04-29 10:33:12

大模型將進一步推動AI數據發展，行業數據類型更加豐富

爲支撐加快推進新型工業化，發展新質生產力，探索數據要素與智能算力網絡協同發展路徑，促進數字技術與實體經濟深度融合，中國信息通信研究院作爲新型基礎設施建設者，科技創新的領軍者，在2024星火生態大會期間，舉辦了"數據要素及智能算力網絡創新專題

2024-04-29 00:55:15

有遇到過嗎？同樣的規則 Excel 中比Python 結果大

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Jethro Shen】問了一個Python處理Excel數據讀取的問題。問題如下：有遇到過嗎？同樣的規則 Excel 中比Python 結果大？二、實

2024-05-01 09:49:01

這種運行結果裏的10.100000001，怎麼能最快改成10.1？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【無敵劈叉小狗】問了一個Python基礎的問題。問題如下：這種運行結果裏的10.100000001，怎麼能最快改成10.1，所有結果都最多一位小數。二、實現過程

2024-04-30 21:49:58

通義靈碼實戰系列：一個新項目如何快速啓動，如何維護遺留系統代碼庫？

作者：別象進入 2024 年，AI 熱度持續上升，翻閱科技區的文章，AI 可謂是軍書十二卷，卷卷有爺名。而麥肯錫最近的研究報告顯示，軟件工程是 AI 影響最大的領域之一，AI 已經成爲了軟件工程的必選項，也有研究稱開發者每天的事務性工作可

2024-04-30 21:12:20

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南

本文分享自華爲雲社區《從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南》，作者：檸檬味擁抱。在圖論和網絡分析中，圖是一種非常重要的數據結構，它由節點（或頂點）和連接這些節點的邊組成。在Python中，我們可以使用鄰接矩陣來表示

2024-04-30 10:34:05

Python爬蟲技術與數據可視化：Numpy、pandas、Matplotlib的黃金組合

前言在當今信息爆炸的時代，數據已成爲企業決策和發展的關鍵。而互聯網作爲信息的主要來源，網頁中蘊含着大量的數據等待被挖掘。Python爬蟲技術和數據可視化工具的結合，爲我們提供了一個強大的工具箱，可以幫助我們從網絡中抓取數據，並將其可視

2024-04-29 23:26:28

Spring AI 搶先體驗，5 分鐘玩轉 Java AI 應用開發

作者：劉軍 Spring AI 是 Spring 官方社區項目，旨在簡化 Java AI 應用程序開發，讓 Java 開發者像使用 Spring 開發普通應用一樣開發 AI 應用。 Spring Cloud Alibaba AI 以 Spr

2024-04-29 21:12:12

1 名工程師輕鬆管理 20 個工作流，創業企業用 Serverless 讓數據處理流程提效

作者：嶽洋、陳德全、劉靜娜北京語勢科技有限公司成立於 2023 年 6 月，語勢科技定位爲“智能投資時代的主題入口”，在資管行業從以機構爲核心轉向以用戶爲核心的變革時代，通過打造主題投資引擎，賦能普惠投資一體化，打造以投資者和資管機構爲主

2024-04-28 21:12:22

24小時熱門文章

最新文章

最新評論文章