【服務器管理】nvidia-smi命令返回GPU的Bus-Id與顯卡的實際位置關係

【服務器管理】nvidia-smi命令返回的GPU的Bus-Id與顯卡的實際位置關係


寫本文的目的是希望通過Bus-Id確定實際出現問題的顯卡,而不是盲目地對主機進行檢查!
我們在維護服務器的GPU的時候,最常使用的命令就是

watch -n 1 nvidia-smi

或者

nvidia-smi

查看顯卡行號:

nvidia-smi -L

返回的結果如下:
在這裏插入圖片描述
這裏,Bus-Id格式如下domain:bus:device.function,我們可以通過bus來確定顯卡的實際位置。

查閱了衆多文獻,都沒有說明Bus-Id與顯卡實際位置的關係,這裏,經過我一一測試,Bus-Id與實際插槽之間存在如下關係:
在這裏插入圖片描述
也就是,從左往右依次是:
88、89、B1、B2、3D、3E、1A、1B

這樣子,我們在以後就可以根據nvidia-smi返回的報錯信息來確定是哪個位置的顯卡出現了問題,例如:
報錯:

Unable to determine the device handle for GPU 0000:B1:00.0: Unknown Error

說明B1位置(從左往右第3個插槽位置的顯卡)存在未知錯誤,那麼,我們就可以針對該位置檢查“是不是電源線沒插穩”、“是不是電源線供電不足”、“是不是顯卡本身有問題”。
檢查的方法也很簡單,採用控制變量法,“換正常的電源線看看能否正常工作”、“換能正常工作的顯卡確定能否正常工作”!

【作者簡介】陳藝榮,男,目前在華南理工大學電子與信息學院廣東省人體數據科學工程技術研究中心攻讀博士,擔任IEEE AccessIEEE Photonics Journal審稿人。兩次獲得美國大學生數學建模競賽(MCM)一等獎,獲得2017年全國大學生數學建模競賽(廣東賽區)一等獎、2018年廣東省大學生電子設計競賽一等獎等科技競賽獎項,主持一項2017-2019年國家級大學生創新訓練項目獲得優秀結題,參與兩項廣東大學生科技創新培育專項資金、一項2018-2019年國家級大學生創新訓練項目獲得良好結題,發表SCI論文3篇,授權實用新型專利8項,受理髮明專利13項。
我的主頁
我的Github
我的CSDN博客
我的Linkedin

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章