pytorch1.1 半精度训练 Adam RMSprop 优化器 Nan 问题

原創

有毒的大妖怪

2020-03-08 03:44

文章转载于https://blog.csdn.net/one_six_mix/article/details/86367086
因为遇到了同样的问题，所以记录一下
在缩小模型，采用半精度模型，参数，输入数据时，发现adam算法有问题，而sgd没有问题。采用方法如下链接：
这个老哥有相同问题https://www.cnblogs.com/yanxingang/p/10148712.html

以下为转载：

2019/5/5更新
pytorch 1.1 版本相比1.0版本，对 half 训练优化了许多，nan发生的情况少了很多，现在应该可以日常使用 half 训练了
使用Adam优化器时，加入参数eps=1e-4

optimizer1 = optim.Adam(model.parameters(), lr=1e-3, eps=1e-4)

pytorch 半精度浮点数表示的范围比单精度的少很多

1.使网络输入值域缩放到 [-1, 1] 或 [0, 1]
2.定义Adam优化器时，加入参数eps=1e-3
3.定义RMSprop优化器时，加入参数eps=1e-2
4.降低学习率

optimizer1 = optim.Adam(model.parameters(), lr=0.001, eps=1e-3)
optimizer2 = optim.RMSprop(model.parameters(), lr=0.001, eps=1e-2)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

走进京东“卓越研效架构师”首期研习营圆满收官

五月的北京，春深半夏，花開滿城。由全國雲計算技術行業產教融合共同體牽頭，攜手工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會以及京東雲共同主辦的“走進京東——卓越研效架構師”研習營，於5月17-18日和24-26日在北京京東

2024-05-31 23:55:49

儿童节变身小小音乐家*用ModelArts制作一张AIGC音乐专辑

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺诈指南：车险欺诈为何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

基于Fluid与JindoCache的大模型训练加速实践

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

【终极指南】使用Python可视化分析文本情感倾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

AI安全志：英国AI骗保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

解读注意力机制原理，教你使用Python实现深度学习模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能测试持续加码，大模型引领软件测试新生态

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

风控指南：国内车险欺诈呈现四大趋势

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

智能高效的IDE GoLand v2024.1全新发布 - 进一步升级AI辅助工具

GoLand 使 Go 代碼的閱讀、編寫和更改變得非常容易。即時錯誤檢測和修復建議，通過一步撤消快速安全重構，智能代碼完成，死代碼檢測和文檔提示幫助所有 Go 開發人員，從新手到經驗豐富的專業人士，創建快速、高效、和可靠的代碼。立即獲取G

2024-05-21 12:19:26

5月21日相聚上海张江！与文心大模型一起共建大模型产业应用生态圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

网络爬虫安全：90后小伙，用软件非法搬运他人原创视频被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索大语言模型：理解Self Attention| 京东物流技术团队

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

GPU 硬件指标说明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

舌尖上的AI：人工智能技术正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

24小時熱門文章

最新文章

最新評論文章