先說結果,我沒安裝成功NVIDIA的最新驅動,因爲我的BIOS上沒有切換顯卡的設置。
但是我覺得有幾個需要說的提醒在這裏總結一下!
1、如果你之前在windows上沒有裝過NVIDIA驅動或CUDA,可以通過這個網站看你的 顯卡是否支持CUDA ?
2、如果你的深度顯卡驅動管理器中沒有NV-Prime方案(如 deepin 15.11這個最新版本就刪掉了這個方案),那你可以繼續往下看。
3、先看看你的BIOS上支不支持切換顯卡驅動,不支持的話,安裝獨顯驅動很可能是無功而返!
4、如果你已經成功的使用上了大黃蜂方案,而且你要求的一些環境不高的話(比如你不用tensorflow2.0,tf2.0要求CUDA10.0,即驅動版本>=410.48),裝個CUDA8、CUDA9還是可以的。deepin的驅動更新慢已經是常態了,不知道後續深度會不會更新(更新了的話,評論區提醒我一聲兒唄)。下表是NVIDIA驅動和CUDA兼容表。
一、大黃蜂方案下的cuda + cudnn + tensorflow-gpu版本安裝
通過nvidia-smi,我們可以查看顯卡信息,以確認我們的驅動是否正確安裝了,在終端內輸入:
optirun nvidia-smi
顯卡信息可以看到你的驅動版本,從而選擇適合的CUDA和CuDNN版本。
若是顯卡驅動安裝正確,運行上面的命令,你會看到相似於下面的輸出,驅動版本是390.87:
大黃蜂方案的顯卡驅動是由bumblebee進行管理的。爲了下降能耗,平時獨顯是處於關閉狀態的,若是有程序須要使用到獨顯,需要經過optirun進行啓動。
關於bumblebee版顯卡驅動在深度學習訓練中的開啓和關閉:
在進行訓練前,在終端輸入sudo tee /proc/acpi/bbswitch <<< ON
,可開啓顯卡。
在訓練結束後,在終端輸入sudo tee /proc/acpi/bbswitch <<< OFF
,可關閉顯卡。
具體參考:
《deepin-15.5 + 小米筆記本pro 下的深度學習環境cuda8 +tensorflow-gpu-1.4版本搭建過程》
二、如果你的BIOS支持切換顯卡驅動,請將N卡設爲初始顯卡
那你算是比較幸運的了,雖然沒有NV-Prime方案,但是給了打開了一扇窗。
1、如果你之前使用過大黃蜂方案,需要刪除大黃蜂所安裝的軟件,可以用以下命令:
dpkg -l | grep -i nvidia | awk '{ print $2 }' | cut -d: -f1 | xargs apt-get -y remove --purge
如果報錯——無法打開鎖文件 /var/lib/dpkg/lock - open (13: 權限不夠),可以sudo -s
輸入一次密碼 進入root模式,再重試。
2、如果你在看到這篇之前,已經下載了不合意的驅動,或是上面刪除大黃蜂所安裝軟件後,
還需要輸入dpkg -l | grep -i nvidia
命令來查看是否還有殘餘驅動,如果還有顯示,則輸入下面命令進行卸載:
sudo apt-get --purge remove nvidia*
3、安裝編譯所需的軟件
sudo apt -y install linux-headers-amd64 linux-headers-deepin-amd64 gcc make dkms
剩下的步驟參考:使用其【快捷方法】即可。
深度科技論壇——如何手動安裝NVIDIA驅動軟件
三、下載CUDA和CuDNN
去官網下載適合你的CUDA,注意要和你的驅動適配,如果要安裝tensorflow2.0建議CUDA10.0或10.1。
《下載適合你的CUDA》
《下載適配的CuDNN》
下載好後,
如果有圖形化界面則需要禁用x-window服務
右鍵屬性=>允許作爲可執行程序執行,雙擊終端運行即可。
或者輸入下面的命令(文件名自行調整)
sudo sh cuda_8.0.61_375.26_linux.run
這個時候會有很多提示需要你確認,由於在第一步已經成功安裝了顯卡驅動,所以這裏就不需要再次安裝了,因此 ,Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 3XX.XX ?這裏選擇 no,其餘都是yes或者accept
最後在.bashrc添加環境變量後source .bashrc
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
參考:《linux安裝GPU顯卡驅動、CUDA和cuDNN庫》
四、遇到的一些問題
不知道是筆記本的原因還是因爲deepin系統沒裝好,在我Ctrl+Alt+f1
進入tty1文本控制檯時,會有持續不斷的報錯,反覆report,下面的這個report會一直往下輸出循環。如果你也遇到了這個,不要慌,像平常一樣硬着頭皮輸入你的命令,就算是被report分隔都還是可以運行的(如果輸入錯了,可以Ctrl+C
重新輸入)
deepin linux not implement report
五、安裝tf2.0並測試
你可以在終端中輸入pip install tensorflow-gpu==2.0.0b1
即可,如果覺得下載慢可以更換到國內的阿里雲鏡像源。
完成後,
在終端中打開並輸入python。
>>> import tensorflow as tf
>>> tf.test.is_gpu_available()
如果結果是True,恭喜你安裝成功!
參考:
《deepin-15.5 + 小米筆記本pro 下的深度學習環境cuda8 +tensorflow-gpu-1.4版本搭建過程》
《Ubuntu 卸載nvidia驅動、CUDA Toolkit》
深度科技論壇——如何手動安裝NVIDIA驅動軟件