在進行深度學習實驗時,GPU 的實時狀態監測十分有必要。今天詳細解讀一下 nvidia-smi 命令。
當輸入nvidia-smi命令時,顯示出來瞭如下的界面:
上圖是服務器上 GeForce GTX 1080 Ti 的信息,下面一一解讀參數。
上面的表格中的紅框中的信息與下面的四個框的信息是一一對應的:
GPU:GPU 編號;
Name:GPU 型號;
Persistence-M:持續模式的狀態。持續模式雖然耗能大,但是在新的GPU應用啓動時,花費的時間更少,這裏顯示的是off的狀態;
Fan:風扇轉速,從0到100%之間變動;
Temp:溫度,單位是攝氏度;
Perf:性能狀態,從P0到P12,P0表示最大性能,P12表示狀態最小性能(即 GPU 未工作時爲P0,達到最大工作限度時爲P12)。
Pwr:Usage/Cap:能耗;
Memory Usage:顯存使用率;
Bus-Id:涉及GPU總線的東西,domain:bus:device.function;
Disp.A:Display Active,表示GPU的顯示是否初始化;
Volatile GPU-Util:浮動的GPU利用率;
Uncorr. ECC:Error Correcting Code,錯誤檢查與糾正;
Compute M:compute mode,計算模式。
下方的 Processes 表示每個進程對 GPU 的顯存使用率。
第二個命令:nvidia-smi -L
該命令用於列出所有可用的 NVIDIA 設備信息。