Nvidia Tesla M40 裝機保姆教程

我知道這個卡真的很老了。。。也知道這個卡很菜。。。然鵝沒辦法也得要維護實驗室老舊設備嗚嗚嗚,寫給實驗室的學弟學妹們流芳百世。 儘量不要重啓!不要重啓!不要重啓!)

一. 系統安裝:

只支持Ubuntu 16.04.1(16.04.4啥的內核小範圍更新的話和顯卡也不適配的)系統,鏈接地址:

http://old-releases.ubuntu.com/releases/16.04.1/ubuntu-16.04.1-desktop-amd64.iso

1)製作啓動盤,重啓時press F8進入“SanDisk Cruzer 6.01"

2)選擇第三個安裝模式“Erase disk and install Ubuntu”,數據我們都是保存在掛載的組raid後的3.6T硬盤上所以無需備份,但是會清空系統盤(480G那個內存盤,Downloads/Documents啥的,所以下好的第二步的驅動記得在數據盤中備份一個,就不用再下了)。

3)Select drive:選第一個479.6G作爲系統盤。

4)開始安裝(開頭有一個問你要不要下載三方庫或者更新啥的都不選,直接continue;時區上海)

5)安裝完畢會要求重啓

二. 驅動安裝:

實驗室通常是裝Nvidia驅動-cuda-cudnn,但Tesla m40我們是從cuda中裝Nvidia驅動,並且由於M40是運算卡沒有圖形化接口,顯示是需要用cpu來的,所以在安裝是不能裝Open GL,驅動版本地址爲:

https://developer.nvidia.com/compute/cuda/8.0/Prod2/local_installers/cuda_8.0.61_375.26_linux-run

1)如果是重裝系統後則無需考慮此步驟,如果之前裝過需要mv到.bak,具體步驟爲:

cd /etc/X11/
sudo mv xorg.conf.fallsafe xorg.conf.fallsafe.bk
cd /usr/share/X11/xorg.conf.d/
sudo mv nvidia-drm-outputclass.conf nvidia-drm-outputclass.conf.bk

2)首先關閉lightdm:

sudo service lightdm stop

3)  運行cuda_8.0.61_375.26_linux.run(簡寫爲cuda*即可):

sudo sh /YOUR/PATH/TO/cuda*

 一直不停的按enter鍵到100%,然後接下來不要選錯了:

4) 重啓lightdm:

sudo service lightdm start

這步如果報錯(由於沒有安裝Open GL?)是因爲1.中的文件沒有mv

     

解決辦法:

cd /usr/share/X11/xorg.conf.d/
sudo mv nvidia-drm-outputclass.conf nvidia-drm-outputclass.conf.bak

至此應該cuda和驅動應該都沒問題了。

三. 硬盤掛載

raid已經是組好了所以不用再組,只需要將數據盤掛在home下即可,當面未掛應該是顯示爲/media/XXX/*************************格式,首先查看當前硬盤信息,找到3.6T的盤:

sudo fdisk -l

掛盤可使用:

sudo mkdir /home/data
sudo chmod 777 /home/data
sudo mount -o rw /dev/sdb1 /home/data

可參考:https://zhuanlan.zhihu.com/p/52664108

接着就是正常了安裝cudnn/anaconda/pytorch等了,詳見裝機教程。

四. 一些注意事項:

顯卡在重啓後崩主要是因爲內核版本自動更新,可以在設置中更改抑制:https://blog.csdn.net/abcwoabcwo/article/details/79658605

另外,如果是工作站遇到循環輸入密碼進不去文字界面的情況可進入recovery模式恢復。但是此服務器按esc進去recovery會卡死,無效,考慮SSH進入文字界面(需要提前保存IP地址)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章