Ubuntu下GPU顯存無法釋放和多卡訓練時候的一些總結

如果我們正在訓練模型的時候,強制ctrl+C 結束進程的話,有時候,GPU的顯存不會釋放,

一般情況下,我們會用nvidia-smi 的命令進行查看哪個進程佔用了GPU顯存。

但是有時候我們發現不了具體的進程,應該就是駐留在GPU裏了。

如果用這條指令進行查看的話,sudo fuser /dev/nvidia*

下面會出現一些選項,如果用kill 指令殺出的話,可能圖形界面也會殺沒了。

下面總結一下多卡訓練時的一些問題。

如果多卡訓練的話,確實得用同一級別的卡來進行訓練,或者不能性能差太多的卡來進行訓練

做了個測試,

單Gtx 1080ti  4.2 samples /s 一秒鐘能跑 4.2個

單Gtx 1070 能跑 2.7-2.8 sample/s 一秒鐘能跑2.8個

單nvidia P106 能跑 2.2 sample/s 一秒鐘能跑2.2個

Gtx1080Ti +P106   3.8 samples/s 一秒鐘能跑3.8個樣本

這樣看來如果Gtx 1080ti 和P106組會的話,會拖Gtx 1080Ti的後腿。

那麼這種組會是不是沒有意義了呢,不是的,可以分別跑不同 的任務或者跑 不同的參數。

可以看出在深度學習的應用中,P106 和1070 差的不是很多。

總體來看,Gtx 1080Ti 確實很猛,並且11GB大顯存,什麼模型都應該能夠載入了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章