错误记录 - 训练深度学习模型loss为nan的原因

原創

2020-06-16 02:28

前言

最近师弟在实际业务中训练深度学习模型时遇到个问题：在大样本训练模型时候的loss为nan，尝试了各种方法也没有什么起色，最终一起分析了一番拟确定了原因，这边就分享下可能的原因可供分析调整~

原因

1.模型问题

网络结构设计问题

通过弱化场景，简化样本的方式去检查是否为网络的问题
损失函数设置不合理
激活函数选择不当
参数初始化问题

2.数据问题

数据需归一化
- 减均值
- 除方差
- 加入normalization(BN\L2 norm等)
数据标签不在[0, num_classes)范围内
训练样本存在脏数据

这个是和师弟最终确定的原因，因为在实际业务中的真实数据需要耗费较多的时间去处理，不像open dataset那样已经帮你处理的干干净净，所以如上述的方法一一检查过了还是没有成效的话，一定要好好地检查下数据。

3.训练问题

loss为nan的说明loss发散，这个时候需要考虑下梯度爆炸的可能，那么相应的解法方式如下：

调小学习率lr
调小batch size
加入gradient clipping

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【调试】调试工具汇总

在線調試工具在線異或校驗：http://www.metools.info/code/c48.html

2020-07-08 02:38:17

AttributeError: ‘COCO‘ object has no attribute ‘get_cat_ids‘

原因：mmdetection用到了pycocotools，本來接口是pycocotools.coco.getCatIds，但是mmdetection又在外包了一層，變成了get_cat_ids，而pycocotools.coco又沒有這個

2020-07-07 16:16:32

iOS中NSDecimalNumber类的一个BUG

我的編程環境是XCode 11.5。今天在測試秒錶代碼的時候偶然發現秒錶計數會是負值，由此進行了下面的一番探索。爲了精確，秒錶走過的秒數用Decimal類型: @Published var elapsedSeconds_exa

大熊猫侯佩

2020-07-05 09:01:15

关于项目的优化杂谈

在已經過去的兩個月中花了3周，總結了下龍2中的優化內容，目標是爲了新的項目做前期的規劃；涉及相關的項目中細節內容，不詳說，說下哪些可以規避的問題一.工具類開發 1.查找重複或冗餘未使用的資源 2.查找超過1024尺寸的圖片工

2020-07-04 13:21:09

第十六章故障诊断、寻求帮助与报告Bug

SIP、WebRTC、 PSTN、 Dialplan、 IVR、 Lua、ESL、HTTAPI、 XML_CURL、 NAT、安全、ITSP、UDP、 RTP、 TLS、 WSS、證書、話機、軟電話、智能手機、APP

2020-07-03 02:58:29

遇到bug了，第一步做什么

遇到一個bug了，第一步應該做什麼？如果這個bug非常容易解決，可能直接查看出錯信息即可解決。但是很多時候遇到的bug很難復現，甚至多了一條log信息，時序不同了bug便不再復現，那麼首要問題便是如何方便快速的復現該bug。

hello_world_world

2020-07-02 18:36:46

dlib（GPU版）安装踩坑流程 windows dlib19.20 VS2015 cuda9.0

我的問題主要在這裏，不停的報錯：DLIB WILL NOT USE CUDA 有錢捧錢場，沒錢加我企鵝幾乎嘗試了國內論壇可以搜到的所有方法：重新安裝CUDA、CUDNN、VS2017、VS2015、更改CUDA配置文件，更改CMA

2020-07-02 15:36:14

杂谈：在Virtual Box中配置Linux网络

Preface 近日在公司分配的辦公筆記本上因需要安裝了Arch Linux虛擬機，但是所用的平臺卻是Oracle Virtual Box——由於公司規定，不能隨便白嫖VMware workstation了，但是如何讓虛擬機聯網，

2020-07-02 13:46:06

？conda创建虚拟环境失败，如何解决？

錯誤代碼 conda create -n pytorch-gpu-env Solving environment: done # >>>>>>>>>>>>>>>>>>>>>> ERROR REPORT <<<<<<<<<<<

2020-07-02 04:13:56

Debug: ValueError: Can´t load save_path when it is None.

最近使用tensorflow時又犯了一個錯誤，耽誤了一點時間，在這裏跟大家分享一下。說明：我使用的是TensorFlow-gpu-1.4.0版本，可能版本有點老。模型restore時遇到報錯，ValueError: Can't loa

2020-07-01 01:46:48

Either targetObject or targetClass for the field must be specified

報錯： java.lang.IllegalArgumentException: Either targetObject or targetClass for the field must be specified java.lan

2020-06-30 10:52:47

A word for WinDbg

Before I came to work at Microsoft I worked as a professional developer on the Microsoft platform and I used to work w

2020-06-30 10:07:02

一个BUG

解決了一個很隱蔽的BUG，就在剛纔。寫了一個類，其對象實例需在多線程中使用，因此打算把互斥機制封裝在類的內部。於是在類裏定義了一個boost::mutex類型的變量，取名叫“mutex_”。在成員函數中使用的時候，用這個mutex

2020-06-29 11:45:32

软件测试学习笔记（1）：软件测试概要

軟件測試的定義早期定義：軟件測試是對程序能夠按預期運行建立起一種信心。——Bill Hetzel，1973 經典定義：測試是爲發現錯誤而執行程序的一個過程。——Myers,1979 IEEE定義：使用人工或自動的手段來運行或測

酸豆角姑娘

2020-06-26 16:26:54

自己写的代码自己看不下去的解决办法

有的APP是匆忙寫的，或者本來不太會寫好不容易憋出來的，後期使用的時候發現會出現很多大大小小的問題。比如我很納悶的strain_sensor的代碼，爲啥同樣的代碼兩次運行出來的結果還不一樣了？？？難過。比如程序的運行效率問題，

酸豆角姑娘

2020-06-26 16:26:42

24小時熱門文章

python gdal 安装使用（Windows， python 3.6.8）

最新文章

最新評論文章