使用NVIDIA-SMI監控GPU利用率和溫度 1、查看GPU當前各項信息 2、滾動檢測 3、其他命令


歡迎關注我的微信公衆號“人小路遠”哦,在這裏我將會記錄自己日常學習的點滴收穫與大家分享,以後也可能會定期記錄一下自己在外讀博的所見所聞,希望大家喜歡,感謝支持!


NVIDIA-SMI爲英偉達NVIDIA顯卡自帶的工具,一般位置爲C:\Program Files\NVIDIACorporation\NVSMI\nvidia-smi.exe,可以用來監控GPU狀態和使用情況,尤其是我們最關心的溫度和使用率。

1、查看GPU當前各項信息

在命令行中進入nvidia-smi.exe文件所在目錄,並運行。

各項參數含義:

第一行 第二行
GPU(顯卡序號) 0(第一塊顯卡)
FAN(風扇) N/A(無風扇)
Name(顯卡型號) GeForce MX150
Temp(GPU溫度) 35C(35度)
Perf(性能狀態) P8(P0表示最大性能,P12表示狀態最小性能(即 GPU 未工作時爲P0,達到最大工作限度時爲P12))
TCC/WDDM(兩種使用模式) WDDM(NVIDIA 高性能 GPU(如Tesla, Quadro)可以配置爲 TCC(Tesla Compute Cluster)模式或 WDDM(Windows Display Driver Model)模式。二者區別在於,TCC 模式下,GPU完全用於計算,並不需要本地顯示功能;而 WDDM 模式下,GPU 同時扮演計算卡 + 顯卡的角色。)
Pwr:Usage/Cap(GPU功耗) N/A / N/A (無數據)
Bus-Id(GPU總線) 00000000:01:00.0(domain: bus:device.function)
Disp.A(Display Active,表示GPU的顯示是否初始化) off
Memory-Usage(顯存使用率) 64MiB / 2048 MiB
Volatile GPU-Util(GPU使用率) 0%
Uncorr. ECC(Error Correcting Code,錯誤檢查與糾正) N/A (無數據)
Compute M.(計算模式) Default

2、滾動檢測

以滾動條形式顯示GPU設備統計信息。

# 指定刷新時間(默認爲1秒)
nvidia-smi dmon –d xxx

# 指定顯示哪些監控指標(默認爲puc),其中:
# p:電源使用情況和溫度(pwr:功耗,temp:溫度)
# u:GPU使用率(sm:流處理器,mem:顯存,enc:編碼資源,dec:解碼資源)
# c:GPU處理器和GPU內存時鐘頻率(mclk:顯存頻率,pclk:處理器頻率)
# v:電源和熱力異常
# m:FB內存和Bar1內存
# e:ECC錯誤和PCIe重顯錯誤個數
# t:PCIe讀寫帶寬

nvidia-smi dmon –s xxx

3、其他命令

3.1、列出所有可用的 NVIDIA 設備信息

nvidia-smi -L

3.2、查詢GPU當前詳細信息

# 查詢所有GPU的當前信息
nvidia-smi -q 

# 查詢指定GPU的當前信息,xxx爲GPU序號
nvidia-smi –q –i xxx

# 指定顯示GPU卡某些信息,xxx參數可以爲:MEMORY, UTILIZATION, ECC, TEMPERATURE, POWER,CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, PAGE_RETIREMENT,ACCOUNTING
nvidia-smi -q –d xxx

# 動態刷新信息,按Ctrl+C停止,可指定刷新頻率,以秒爲單位
nvidia-smi –q –l xxx

# 將查詢的信息輸出到具體的文件中,不在終端顯示
nvidia-smi –q –f xxx
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章