遠程服務器部署 keras-GPU 排坑記錄

這是一篇排坑記錄......因爲網上好多資料都有坑

  • 部署條件:通過SSH訪問的外網服務器,非內網下
  • 操作系統:Ubuntu 16.04
  • 硬件條件:CPU: i7-9700    GPU: GTX-1070    MEM: 16G

 *最大的坑:linux內核版本---NVIDIA驅動版本---CUDA版本---CUDNN版本---Tensorflow-GPU版本---Keras版本 必須要對應

 *一定要換成國內的源,不然速度感人

 

安裝 NVIDIA-410 驅動

服務器沒有顯示屏,所以不需要禁用nouveau,避免了安裝失敗後重復啓動的坑...

1.添加ppa,才能搜索到最新的nvidia驅動

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update

2.安裝 nvidia-410 驅動

sudo apt-get install nvidia-410

3.查看是否安裝成功

nvidia-smi

    有如下輸出則證明成功:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.78       Driver Version: 410.78       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1070    Off  | 00000000:01:00.0  On |                  N/A |
| 47%   42C    P8    14W / 160W |     52MiB /  8118MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1080      G   /usr/lib/xorg/Xorg                            49MiB |
+-----------------------------------------------------------------------------+

安裝 CUDA 9.0

有坑,在遠程服務器通過各種方法下載很容易斷掉,但是在windows下通過迅雷下載速度666...辣麼...

1. windows下去NVIDIA官網用迅雷下載

下載地址:   https://developer.nvidia.com/cuda-toolkit-archive

選擇runfile文件下載

然後,通過SecureCRT中的Zmodem方法進行遠程傳輸

2.執行安裝

sudo ./cuda_9.0.176_384.81_linux.run

*注意: 除了安裝NVIDIA驅動的地方選N,其他一路Y

3.在~/.bashrc 的最後面添加環境變量

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64
export PATH=$PATH:/usr/local/cuda-9.0/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-9.0

4.測試是否安裝成功

nvcc -V

若有如下輸出則成功

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2017 NVIDIA Corporation
Built on Fri_Sep__1_21:08:03_CDT_2017
Cuda compilation tools, release 9.0, V9.0.176

 

安裝 CuDNN

1.選擇對應CUDA-9.0的版本下載

https://developer.nvidia.com/rdp/cudnn-download

2.安裝

tar -zxvf cudnn-9.0-linux-x64-v7.1.tgz 
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ 
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d 
sudo chmod a+r /usr/local/cuda/include/cudnn.h 
sudo chmod a+r /usr/local/cuda/lib64/libcudnn* 

安裝tensorflow-gpu-1.12.0

1.使用pip3安裝

pip3 install --upgrade tensorflow-gpu==1.12.0

2.查看是否安裝版本\是否安裝成功

pip3 list | grep tensorflow

3.坑爹的FutureWarning 警告:

*試過了網上各種降級方法都不靠譜,最後通過如下方法解決

把所有警告的dtype.py中的 np.dtype()中的最後一列 1 改成如下 (1,)

np.dtype([("qint8", np.int8, (1,))])

 

安裝 keras

1.安裝

pip3 instal keras

2.下載例子

git clone https://github.com/keras-team/keras

3.運行example中的例子

python3 mnist_mlp.py

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章