Ubuntu16.04 + TITAN XP 深度學習服務器環境搭建(驅動安裝,CUNN7.6.5, CUDA9.0) (避坑篇)

 

百因必有果,你們的救星就是我

(萬一救不了怎麼辦.....)

網上的坑能踩我都踩,多天摸爬滾打,親測有效!

希望能幫到大家. 

 

建議直接上來先跑跑程序看看,能跑就vans了,不要瞎折騰,勸退!

--基本搭建,網上有太多版本了,查閱了很多很多之後才做了這篇總結,主要是針對服務器的搭建,沒有圖形界面的!!

 

1.顯卡驅動檢查:

顯卡能否運行需要底層驅動的支持,驅動相當於打開顯卡的鑰匙

a.我們可以通過以下命令去查看當前服務器的顯卡:

lspci | grep -i vga

 

我的服務器這裏並沒有能直接看出顯卡的型號,在這裏一定要建議查清楚自己的顯卡型號,後來問師兄,然後才知道是8塊TITAN Xp,後面我們可以根據相對應的型號去NVIDIA下載對應的顯卡驅動(https://www.nvidia.cn/Download/index.aspx?

 

b.接下來我們可以看看我們已經安裝的顯卡驅動

nvidia-smi

 

因爲我已經爬過坑了,所以所有的驅動都安裝成最新的了。

 

c.再接着我們看看建議安裝的顯卡驅動

ubuntu-drivers devices 或者 sudo apt-cache search nvidia*

後面的命令,有一說一,我試了,但是沒顯示,但是前者可行

在這裏需要小提一句,建議先把ppa源加進系統然後更新,有關ppa的介紹可以看下這篇知乎(https://zhuanlan.zhihu.com/p/55250294

這裏涉及ppa的命令有以下:

sudo add-apt-repository ppa:graphics-drivers/ppa #命令添加Graphic Drivers PPA sudo apt-get update

再一次有一說一,對命令一,我這邊的服務器不感冒!,然後想着就只更新apt-get,結果好像也成:沒更新之前建議安裝的顯卡驅動只是396版本,更新之後直接送我430版本....

確實,覺得sudo apt-get update還蠻重要的!

 

忘記放我的建議驅動圖了:

430!!!!(damn)

 

2.安裝驅動

a.下載驅動

下載地址下載指定顯卡的最高版本的驅動程序,也可以從下載地址中查詢指定版本顯卡的全部版本的驅動程序,有一說一,我下載了最高版本的驅動,因爲確實似乎找不到指定版本的!

 

b.卸載原有驅動

sudo apt-get purge nvidia*

 

c.安裝依賴

sudo apt-get install build-essential gcc-multilib dkms

 

d.禁用nouveau

新建blanklist-nouveau.conf文件:    

sudo gedit /etc/modprobe.d/blacklist-nouveau.conf

  在文件裏寫入:    

blacklist nouveau blacklist lbm-nouveau options nouveau modeset=0 alias nouveau off alias lbm-nouveau off

  保存並退出,執行:

sudo update-initramfs -u

  重啓後檢查nouveau是否禁用成功(如果輸入命令之後沒有輸出則禁用成功):

lsmod | grep nouveau

 

e.獲取kernel source

查詢uname:

  uname -r 

接下來執行(將x.x.x-x-generic替換爲上一步查詢到的內容):

  apt-get install linux-source   apt-get install linux-headers-x.x.x-x-generic

 

f.禁用X服務

  sudo /etc/init.d/lightdm stop

  ps:這時候圖形界面會被關閉,同時按下Crtl+Alt+F1進入命令行界面,輸入用戶名和密碼進入終端(由於我這裏是服務器,所以直接就是終端)

 

g.安裝驅動

    給驅動賦予執行權限:

  sudo chmod a+x NVIDIA-Linux-x86_64-***.run

    運行(注意參數):

  sudo ./NVIDIA-Linux-x86_64-***.run --no-opengl-files –no-x-check –no-nouveau-check

    參數解釋:

      • –no-opengl-files 只安裝驅動文件,不安裝OpenGL文件,
      • –no-x-check 安裝驅動時不檢查X服務,
      • –no-nouveau-check 安裝驅動時不檢查nouveau。

    安裝過程中的一些選項:

  >The distribution-provided pre-install script failed! Are you sure you want to continue?   

       >Yes   

       >Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later?   

       >No   

       >Install Nvidia's 32-bit compatibility libraries?   

       >No   

       >Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up?   

      >Yes

 

h.檢查安裝是否成功;

開啓圖形界面:

sudo /etc/init.d/lightdm start

輸入:

nvidia-smi

得到輸出:

Ref:https://blog.csdn.net/weixin_30907523/article/details/95560628

參考1參考2參考3

致謝!鳴鼓!!!!

 

3.安裝CUDA,CUDNN

CUDA,CUDNN的介紹在這裏就不詳細展開了,前者好比是工作臺,後者好比是扳手,扳手只是個工具。

 

在這裏!要多說一句!就是,先檢查一下自己的服務器是否已經裝有了CUDA和CUDNN

操作可以參考:

https://blog.csdn.net/fu6543210/article/details/90916810

https://blog.csdn.net/qq_38451119/article/details/83302585

致謝!鳴鼓!!請喫鴨腿!!!

 

如果沒有,或者版本過低(刪除,重新下載),則可以參考下面步驟:

 

a.CUDA的安裝

CUDA8.0下載地址;CUDA9.0下載地址;CUDA10.0下載地址;CUDA歷史發行版本下載地址(根據網上大部分樓主的選擇,9.0無疑)

點download,點它!!!

 

給CUDA賦予執行權限:

  chmod +x ./cuda_9.0.176_384.81_linux.run

  

安裝:

  sudo ./cuda_9.0.176_384.81_linux.run

  

安裝過程中的一些選項:

  >Do you accept the previously read EULA?   

       >accept/decline/quit: accept   

       >Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 375.26?   

       >(y)es/(n)o/(q)uit: n   
       >Install the CUDA 9.0 Toolkit?   

       >(y)es/(n)o/(q)uit: y   

       >Enter Toolkit Location   

       > [ default is /usr/local/cuda-9.0 ]:   

       >Do you want to install a symbolic link at /usr/local/cuda?   

       >(y)es/(n)o/(q)uit: n   

       >Install the CUDA 9.0 Samples?   

       >(y)es/(n)o/(q)uit: n

  

添加環境變量:

  sudo gedit ~/.bashrc   

       export PATH="/usr/local/cuda-9.0/bin:$PATH"   

       export LD_LIBRARY_PATH="/usr/local/cuda-9.0/lib64:$LD_LIBRARY_PATH"

  

b.檢查CUDA是否安裝成功:(若最後顯示Result = PASS,表明cuda查詢顯卡信息成功。)

cd /usr/local/cuda-9.0/samples/1_Utilities/deviceQuery sudo make ./deviceQuery

  ps:如果安裝過程中出現找不到某庫的錯誤,百度這個錯誤安裝相應的庫即可。

參考博客:參考1, https://blog.csdn.net/weixin_30907523/article/details/95560628

 

c.安裝CUDNN

  (1)下載cudnn:

    cudnn的下載需要註冊登錄NVIDIA的賬號,

我下載的是cuDNN v7.6.5 , for CUDA 9.0 (cuDNN Library for Linux)  下載地址

  (2)安裝:

  tar -zxvf cudnn-****.tgz   sudo cp cuda/include/cudnn.h /usr/local/cuda/include/   sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/   sudo chmod a+r /usr/local/cuda/include/cudnn.h   sudo chmod a+r /usr/local/cuda/lib64/libcudnn* 

弄好後可以查看一下cudnn的版本

7.6.5 woc!!終於結束基本搭建了!

 

至於anaconda的安裝,庫的安裝那些,大家可以參考其他blog,這基本上不會有太大差異,而以上的基本搭建,網上有太多版本了,查閱了很多很多之後才做了這篇總結,主要是針對服務器的搭建,沒有圖形界面的!!

 

-----再補充點東西趴,爬過坑,能跳就跳----

1.xftp, xshell的使用,建議結合xmanager(xmanager太方便了)

https://blog.csdn.net/Lq_520/article/details/80670999

https://blog.csdn.net/qq_41870658/article/details/93330041

 

2.無法連接NVIDIA驅動:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver

https://blog.csdn.net/hangzuxi8764/article/details/86572093

 

3.下載anaconda

官方下載渠道速度可能比較慢,可以直接下載清華鏡像

下載好之後可以通過xftp從windows上面把文件拷過去linux

命令行終端輸入:

bash ./Anaconda*.sh

這樣就可以安裝了

ps:這裏需要注意一下,原本的服務器是否裝了默認的python解釋器,如果有的話一般好像是輸入python3纔是對應的anaconda版本中的python解釋器

anaconda創建虛擬環境:

  conda create -n env_name python=3.6

  激活虛擬環境:

  source activate env_name

 

我透!!終於T_T,天亮了......

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章