我知道這個卡真的很老了。。。也知道這個卡很菜。。。然鵝沒辦法也得要維護實驗室老舊設備嗚嗚嗚,寫給實驗室的學弟學妹們流芳百世。 儘量不要重啓!不要重啓!不要重啓!)
一. 系統安裝:
只支持Ubuntu 16.04.1(16.04.4啥的內核小範圍更新的話和顯卡也不適配的)系統,鏈接地址:
http://old-releases.ubuntu.com/releases/16.04.1/ubuntu-16.04.1-desktop-amd64.iso
1)製作啓動盤,重啓時press F8進入“SanDisk Cruzer 6.01"
2)選擇第三個安裝模式“Erase disk and install Ubuntu”,數據我們都是保存在掛載的組raid後的3.6T硬盤上所以無需備份,但是會清空系統盤(480G那個內存盤,Downloads/Documents啥的,所以下好的第二步的驅動記得在數據盤中備份一個,就不用再下了)。
3)Select drive:選第一個479.6G作爲系統盤。
4)開始安裝(開頭有一個問你要不要下載三方庫或者更新啥的都不選,直接continue;時區上海)
5)安裝完畢會要求重啓。
二. 驅動安裝:
實驗室通常是裝Nvidia驅動-cuda-cudnn,但Tesla m40我們是從cuda中裝Nvidia驅動,並且由於M40是運算卡沒有圖形化接口,顯示是需要用cpu來的,所以在安裝是不能裝Open GL,驅動版本地址爲:
https://developer.nvidia.com/compute/cuda/8.0/Prod2/local_installers/cuda_8.0.61_375.26_linux-run
1)如果是重裝系統後則無需考慮此步驟,如果之前裝過需要mv到.bak,具體步驟爲:
cd /etc/X11/
sudo mv xorg.conf.fallsafe xorg.conf.fallsafe.bk
cd /usr/share/X11/xorg.conf.d/
sudo mv nvidia-drm-outputclass.conf nvidia-drm-outputclass.conf.bk
2)首先關閉lightdm:
sudo service lightdm stop
3) 運行cuda_8.0.61_375.26_linux.run(簡寫爲cuda*即可):
sudo sh /YOUR/PATH/TO/cuda*
一直不停的按enter鍵到100%,然後接下來不要選錯了:
4) 重啓lightdm:
sudo service lightdm start
這步如果報錯(由於沒有安裝Open GL?)是因爲1.中的文件沒有mv
解決辦法:
cd /usr/share/X11/xorg.conf.d/
sudo mv nvidia-drm-outputclass.conf nvidia-drm-outputclass.conf.bak
至此應該cuda和驅動應該都沒問題了。
三. 硬盤掛載
raid已經是組好了所以不用再組,只需要將數據盤掛在home下即可,當面未掛應該是顯示爲/media/XXX/*************************格式,首先查看當前硬盤信息,找到3.6T的盤:
sudo fdisk -l
掛盤可使用:
sudo mkdir /home/data
sudo chmod 777 /home/data
sudo mount -o rw /dev/sdb1 /home/data
可參考:https://zhuanlan.zhihu.com/p/52664108
接着就是正常了安裝cudnn/anaconda/pytorch等了,詳見裝機教程。
四. 一些注意事項:
顯卡在重啓後崩主要是因爲內核版本自動更新,可以在設置中更改抑制:https://blog.csdn.net/abcwoabcwo/article/details/79658605
另外,如果是工作站遇到循環輸入密碼進不去文字界面的情況可進入recovery模式恢復。但是此服務器按esc進去recovery會卡死,無效,考慮SSH進入文字界面(需要提前保存IP地址)。