錯誤記錄 - 訓練深度學習模型loss爲nan的原因

原創

2020-06-16 02:28

前言

最近師弟在實際業務中訓練深度學習模型時遇到個問題：在大樣本訓練模型時候的loss爲nan，嘗試了各種方法也沒有什麼起色，最終一起分析了一番擬確定了原因，這邊就分享下可能的原因可供分析調整~

原因

1.模型問題

網絡結構設計問題

通過弱化場景，簡化樣本的方式去檢查是否爲網絡的問題
損失函數設置不合理
激活函數選擇不當
參數初始化問題

2.數據問題

數據需歸一化
- 減均值
- 除方差
- 加入normalization(BN\L2 norm等)
數據標籤不在[0, num_classes)範圍內
訓練樣本存在髒數據

這個是和師弟最終確定的原因，因爲在實際業務中的真實數據需要耗費較多的時間去處理，不像open dataset那樣已經幫你處理的乾乾淨淨，所以如上述的方法一一檢查過了還是沒有成效的話，一定要好好地檢查下數據。

3.訓練問題

loss爲nan的說明loss發散，這個時候需要考慮下梯度爆炸的可能，那麼相應的解法方式如下：

調小學習率lr
調小batch size
加入gradient clipping

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【調試】調試工具彙總

在線調試工具在線異或校驗：http://www.metools.info/code/c48.html

2020-07-08 02:38:17

AttributeError: ‘COCO‘ object has no attribute ‘get_cat_ids‘

原因：mmdetection用到了pycocotools，本來接口是pycocotools.coco.getCatIds，但是mmdetection又在外包了一層，變成了get_cat_ids，而pycocotools.coco又沒有這個

2020-07-07 16:16:32

iOS中NSDecimalNumber類的一個BUG

我的編程環境是XCode 11.5。今天在測試秒錶代碼的時候偶然發現秒錶計數會是負值，由此進行了下面的一番探索。爲了精確，秒錶走過的秒數用Decimal類型: @Published var elapsedSeconds_exa

大熊猫侯佩

2020-07-05 09:01:15

關於項目的優化雜談

在已經過去的兩個月中花了3周，總結了下龍2中的優化內容，目標是爲了新的項目做前期的規劃；涉及相關的項目中細節內容，不詳說，說下哪些可以規避的問題一.工具類開發 1.查找重複或冗餘未使用的資源 2.查找超過1024尺寸的圖片工

2020-07-04 13:21:09

第十六章故障診斷、尋求幫助與報告Bug

SIP、WebRTC、 PSTN、 Dialplan、 IVR、 Lua、ESL、HTTAPI、 XML_CURL、 NAT、安全、ITSP、UDP、 RTP、 TLS、 WSS、證書、話機、軟電話、智能手機、APP

2020-07-03 02:58:29

遇到bug了，第一步做什麼

遇到一個bug了，第一步應該做什麼？如果這個bug非常容易解決，可能直接查看出錯信息即可解決。但是很多時候遇到的bug很難復現，甚至多了一條log信息，時序不同了bug便不再復現，那麼首要問題便是如何方便快速的復現該bug。

hello_world_world

2020-07-02 18:36:46

dlib（GPU版）安裝踩坑流程 windows dlib19.20 VS2015 cuda9.0

我的問題主要在這裏，不停的報錯：DLIB WILL NOT USE CUDA 有錢捧錢場，沒錢加我企鵝幾乎嘗試了國內論壇可以搜到的所有方法：重新安裝CUDA、CUDNN、VS2017、VS2015、更改CUDA配置文件，更改CMA

2020-07-02 15:36:14

雜談：在Virtual Box中配置Linux網絡

Preface 近日在公司分配的辦公筆記本上因需要安裝了Arch Linux虛擬機，但是所用的平臺卻是Oracle Virtual Box——由於公司規定，不能隨便白嫖VMware workstation了，但是如何讓虛擬機聯網，

2020-07-02 13:46:06

？conda創建虛擬環境失敗，如何解決？

錯誤代碼 conda create -n pytorch-gpu-env Solving environment: done # >>>>>>>>>>>>>>>>>>>>>> ERROR REPORT <<<<<<<<<<<

2020-07-02 04:13:56

Debug: ValueError: Can´t load save_path when it is None.

最近使用tensorflow時又犯了一個錯誤，耽誤了一點時間，在這裏跟大家分享一下。說明：我使用的是TensorFlow-gpu-1.4.0版本，可能版本有點老。模型restore時遇到報錯，ValueError: Can't loa

2020-07-01 01:46:48

Either targetObject or targetClass for the field must be specified

報錯： java.lang.IllegalArgumentException: Either targetObject or targetClass for the field must be specified java.lan

2020-06-30 10:52:47

A word for WinDbg

Before I came to work at Microsoft I worked as a professional developer on the Microsoft platform and I used to work w

2020-06-30 10:07:02

一個BUG

解決了一個很隱蔽的BUG，就在剛纔。寫了一個類，其對象實例需在多線程中使用，因此打算把互斥機制封裝在類的內部。於是在類裏定義了一個boost::mutex類型的變量，取名叫“mutex_”。在成員函數中使用的時候，用這個mutex

2020-06-29 11:45:32

軟件測試學習筆記（1）：軟件測試概要

軟件測試的定義早期定義：軟件測試是對程序能夠按預期運行建立起一種信心。——Bill Hetzel，1973 經典定義：測試是爲發現錯誤而執行程序的一個過程。——Myers,1979 IEEE定義：使用人工或自動的手段來運行或測

酸豆角姑娘

2020-06-26 16:26:54

自己寫的代碼自己看不下去的解決辦法

有的APP是匆忙寫的，或者本來不太會寫好不容易憋出來的，後期使用的時候發現會出現很多大大小小的問題。比如我很納悶的strain_sensor的代碼，爲啥同樣的代碼兩次運行出來的結果還不一樣了？？？難過。比如程序的運行效率問題，

酸豆角姑娘

2020-06-26 16:26:42

24小時熱門文章

最新文章

最新評論文章