Ubuntu16.04 RTX2080ti 安裝NVIDIA驅動+cuda9.0+cudnn7.3.0

工程師說rtx2080ti支支持cuda10,開始用cuda最新版10.1折騰了兩天,都成功了,但是運行tensorflow時候提示要cuda9版本。最後實驗了一下cuda9 cudnn7.3.1終於成功跑起來了, 記得用conda install tensorflow-gpu=1.8.0 或者1.7.0 安裝 太低版本好像還是出問題。

另外,今天一早運行任務估計並行太大,導致系統死機,重新啓動後,顯卡驅動損壞了,沒辦法,重新安裝驅動,完成後運行tf程序又出現類似的情況,提示cuda cudnn版本不對應。後來想着 nvidia顯卡驅動重裝了,估計cuda cudnn也需要重新安裝,於是卸載了重裝,直接跑tf程序,問題依舊,怎麼辦?

後來又把cuda下虛擬環境對應的tf重新安裝了一下,直接運行conda install tensorflow-gpu=1.8.0(更高點版本),不用卸載,否則提示要下載低版本的cuda和cudnn。(不要執行conda uninstall tensorflow-gpu=1.8.0)

崩潰,一個系統搞了4天。浪費了大量時間!!哭暈!!!!!!!!!!!

如果卸載cuda9.0

sudo /usr/local/cuda-9.0/bin/uninstall_cuda_9.0.pl 執行。

 

因爲要跑一些比較大的程序,所以實驗室給配了一塊比較新的顯卡 rtx2080ti ,所以我要安裝個與它適配的驅動。好了廢話不多說,開始工作,一些圖片也沒有保存,還是依靠蒼白的文字吧。。。
一、安裝NVIDIA驅動
1.下載驅動文件
去官網下載和自己的顯卡適配的驅動文件,是個.run文件。貼個下載地址:https://www.nvidia.cn/Download/index.aspx
在這裏插入圖片描述search之後下載就行,記住它下載到了哪個文件夾裏,以後會用的到
2.文件已經下載好了,但是在安裝之前我我們需要做一些準備。
(1)、刪除原有驅動(可選):$ sudo apt-get remove --purge nvidia*
我在刪除的時候就提示我沒有原有的驅動。
(2)、禁用nouveau,安裝NVIDIA需要把系統自帶的驅動禁用
打開文件:sudo gedit /etc/modprobe.d/blacklist.conf
在文本最後添加以下內容:

blacklist nouveau
option nouveau modeset=0
  • 1
  • 2

然後保存退出
執行:sudo update-initramfs -u
重啓,命令行輸入:lsmod | grep nouveau
沒有任何輸出的話就代表禁用成功。
3.安裝NVIDIA驅動程序(準備另一臺電腦,用來看教程或者是查找需要輸入的命令)
禁用圖形界面服務:sudo service lightdm stop
按Ctrl+Alt+F1進入命令行,輸入用戶名密碼登錄(通過Ctrl+Alt+F7可返回界面)
下載的是.run文件,首先給文件賦予執行權限,首先cd到下載目錄:(重要的事情說三遍:注意參數、注意參數、注意參數)
打開所在的文件夾:cd ~/download/ (這裏應該寫你當時把.run文件下載到的文件夾的路徑,一般默認是下載文件夾,如果你在這裏出現錯誤,比如找不到文件,或者路徑是中文的,可以嘗試把.run文件移動到一個home下,這樣可以直接打:cd /home/你的用戶名/ 這樣就可以打開了。)
然後輸入:sudo chmod a+x NVIDIA-Linux-x86_64-410.78.run (敲自己下載的文件名字)
這是不會有什麼輸出。
接着安裝:sudo ./NVIDIA-Linux-x86_64-410.78.run –no-opengl-files

no-opengl-files 只安裝驅動文件,不安裝opengl文件。這個參數最重要
–no-x-check 安裝驅動時不檢查X服務
–no-nouveau-check 安裝驅動時不檢查nouveau
後面兩個參數可不加。
接着就是一直選擇它默認的那個選項就好。
然後掛載驅動: modprobe nvidia
最後查看是否已經安裝好了:nvidia-smi
在這裏插入圖片描述
出現這種界面,說明已經安裝成功。可以打開圖形界面了:sudo service lightdm start。後面的安裝直接在終端即可。
二、安裝cuda 9.0
安裝和自己顯卡的適配版本,也可以看上圖中顯示的和自己安裝的NVIDIA適配的cuda version(上圖右上角)。我選擇的是cuda 9.0。
1.下載文件
官網地址:https://developer.nvidia.com/cuda-zone 選擇適合自己的版本
在這裏插入圖片描述下載到一個確定的文件夾裏,一般默認在“下載”裏。
2.安裝 最好root下安裝

 sudo chmod a+x cuda_10.0.130_410.48_linux.run // 獲取權限

  sudo sh cuda_10.0.130_410.48_linux.run --tmpdir=/home/anzhuo/

里加 --tmpdir 主要是直接運行後,會提示空間不足的問題,後面應該填自己下載之後文件所在的路徑,我直接放在了home下
這時會出現很長的聲明,一直按enter鍵,把聲明讀完,然後就可以進行選擇了。(這裏我的圖沒有保存下來,用了別人博客裏的圖,特此感謝)
在這裏插入圖片描述
因爲我是獨立安裝的NVIDIA 程序,所以進行上面的選擇,安裝完成後會出現個提醒,這是因爲我在安裝CUDA的時候沒有選擇安裝驅動,提示需要安裝驅動,忽略就行。
3.加入環境路徑
打開.bashrc 文件:sudo gedit ~/.bashrc
打開文件後將下面兩句話加入進去:

export LD_LIBRARY_PATH=$LDLIBRARY_PATH:/usr/local/cuda-9.0/lib64
export PATH=$PATH:/usr/local/cuda-9.0/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-9.0

保存 關閉,命令行輸入:source ~./bashrc
4.終端輸入:nvcc --version 會輸出CUDA的版本信息
在這裏插入圖片描述這樣就是安裝成功了!
三、安裝cudnn
1.官網下載:https://developer.nvidia.com/rdp/cudnn-download
進入時需要登錄,沒有賬戶的話就註冊一個,進入即可。選擇和自己cuda適配的版本
在這裏插入圖片描述然後下載,是一個壓縮包,我下載完之後電腦自動跳出來提取,是一個cuda文件夾,然後我就提取出來了,放到了home文件夾下。如果不能直接提取的,百度搜Ubuntu下解壓的命令,將它解壓到一個確定的文件夾下。
2.右擊cuda文件夾,選擇在終端打開,然後輸入

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h 
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

3.查看cudnn版本

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

 

驗證cuda是否成功:

驗證cudnn 是否安裝成功

cp -r /usr/src/cudnn_samples_v7/ $HOME

cd $HOME/cudnn_samples_v7/mnistCUDNN

make clean && make

./mnistCUDNN

當輸出是:

 

 Result of classification: 1 3 5

 Test passed!

 說明cudnn安裝成功!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章