歡迎關注我的微信公衆號“人小路遠”哦,在這裏我將會記錄自己日常學習的點滴收穫與大家分享,以後也可能會定期記錄一下自己在外讀博的所見所聞,希望大家喜歡,感謝支持!
NVIDIA-SMI爲英偉達NVIDIA顯卡自帶的工具,一般位置爲C:\Program Files\NVIDIACorporation\NVSMI\nvidia-smi.exe
,可以用來監控GPU狀態和使用情況,尤其是我們最關心的溫度和使用率。
1、查看GPU當前各項信息
在命令行中進入nvidia-smi.exe文件所在目錄,並運行。
各項參數含義:
第一行 | 第二行 |
---|---|
GPU(顯卡序號) | 0(第一塊顯卡) |
FAN(風扇) | N/A(無風扇) |
Name(顯卡型號) | GeForce MX150 |
Temp(GPU溫度) | 35C(35度) |
Perf(性能狀態) | P8(P0表示最大性能,P12表示狀態最小性能(即 GPU 未工作時爲P0,達到最大工作限度時爲P12)) |
TCC/WDDM(兩種使用模式) | WDDM(NVIDIA 高性能 GPU(如Tesla, Quadro)可以配置爲 TCC(Tesla Compute Cluster)模式或 WDDM(Windows Display Driver Model)模式。二者區別在於,TCC 模式下,GPU完全用於計算,並不需要本地顯示功能;而 WDDM 模式下,GPU 同時扮演計算卡 + 顯卡的角色。) |
Pwr:Usage/Cap(GPU功耗) | N/A / N/A (無數據) |
Bus-Id(GPU總線) | 00000000:01:00.0(domain: bus:device.function) |
Disp.A(Display Active,表示GPU的顯示是否初始化) | off |
Memory-Usage(顯存使用率) | 64MiB / 2048 MiB |
Volatile GPU-Util(GPU使用率) | 0% |
Uncorr. ECC(Error Correcting Code,錯誤檢查與糾正) | N/A (無數據) |
Compute M.(計算模式) | Default |
2、滾動檢測
以滾動條形式顯示GPU設備統計信息。
# 指定刷新時間(默認爲1秒)
nvidia-smi dmon –d xxx
# 指定顯示哪些監控指標(默認爲puc),其中:
# p:電源使用情況和溫度(pwr:功耗,temp:溫度)
# u:GPU使用率(sm:流處理器,mem:顯存,enc:編碼資源,dec:解碼資源)
# c:GPU處理器和GPU內存時鐘頻率(mclk:顯存頻率,pclk:處理器頻率)
# v:電源和熱力異常
# m:FB內存和Bar1內存
# e:ECC錯誤和PCIe重顯錯誤個數
# t:PCIe讀寫帶寬
nvidia-smi dmon –s xxx
3、其他命令
3.1、列出所有可用的 NVIDIA 設備信息
nvidia-smi -L
3.2、查詢GPU當前詳細信息
# 查詢所有GPU的當前信息
nvidia-smi -q
# 查詢指定GPU的當前信息,xxx爲GPU序號
nvidia-smi –q –i xxx
# 指定顯示GPU卡某些信息,xxx參數可以爲:MEMORY, UTILIZATION, ECC, TEMPERATURE, POWER,CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, PAGE_RETIREMENT,ACCOUNTING
nvidia-smi -q –d xxx
# 動態刷新信息,按Ctrl+C停止,可指定刷新頻率,以秒爲單位
nvidia-smi –q –l xxx
# 將查詢的信息輸出到具體的文件中,不在終端顯示
nvidia-smi –q –f xxx