序
- 最近看CDQA這個開源庫的時候看到了混合精度訓練這種寫法,所以簡單去了解了下,
- 結果得出了一個很悲催的結論:我的小破筆記本的顯卡不支持混合精度訓練…??!
- 自己不研究這個,找到一些很不錯的資料,自己看完後這裏就奉送上!
Tensor Core
-----------------------------大神自取-----------------------------
1. Deep Learning Performance Guide
- 本着擴充知識的目的,我們來簡單普及一些關於顯卡的知識,雖然買不起…
GPU參數解釋
體現GPU計算能力的兩個重要特徵:
1)CUDA核的個數;
2)存儲器大小。
描述GPU性能的兩個重要指標:
1)計算性能峯值;
2)存儲器帶寬。
GPU,CUDA,cuDNN的理解
-
補:cuDNN將研究人員創建和優化CUDA代碼以提高DL性能的需求抽象出來
GPU選擇(土豪自取)
GPU正篇
- 上面其實是爲下面的兩篇文章稍微打打基礎,簡單看看,可以當作普及知識,兩篇文章大致從GPU硬件角度出發,解釋的混合精度訓練和一些測試結果:
- 2.NVIDIA深度學習Tensor Core全面解析(上篇)
- 3.NVIDIA深度學習Tensor Core全面解析(下篇)
基於混和精度的模型加速
原始博文
- 本這篇文章重在工程化,給出了具體的代碼以及下面的相應的參考資料,這幾份參考資料都很不錯,看完上面的博文,有需要可以仔細讀讀下面的資料
參考資料:
1.nv官方repo給了一些基於pytorch的apex加速的實現
- 實現是基於fairseq實現的,可以直接對比代碼1-apex版和代碼2-非apex版(fairseq官方版),瞭解是如何基於apex實現加速的。
- 按圖索驥,可以get到很多更加具體地內容。