在整個機器學習的過程中,配置環境一直是一個比較複雜的事情,今天介紹幾種根據英偉達官方文檔來配置環境的方法。
安裝方案
> https://gitlab.com/nvidia/container-images/cuda/ > 國內同步鏡像:https://gitee.com/zionfuo/cuda
安裝腳本在dist目錄下
選擇cuda的版本號
矩池雲上cuda8/cuda9使用的是ubuntu16.04,cuda10及以上都是ubuntu18.04
- base:cuda安裝方式
- devel:nvcc等安裝方式
- runtime:cudnn等安裝方式
檢查系統版本
source /etc/os-release && echo $VERSION_ID
cuda 與 nvcc 安裝教程
導入apt倉庫和其GPG key
# 檢查系統若輸出 16.04,請用下面的命令
curl -fsSL https://mirrors.aliyun.com/nvidia-cuda/ubuntu1604/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.aliyun.com/nvidia-cuda/ubuntu1604/x86_64/ /" > /etc/apt/sources.list.d/cuda.list
# 檢查系統若輸出 18.04,請用下面的命令
curl -fsSL https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804/x86_64/ /" > /etc/apt/sources.list.d/cuda.list
> cuda、nvcc在阿里源的nvidia-cuda中有,軟件的對應的版本可以在阿里源中搜索查到。 https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804(1604)/x86_64/
安裝所需版本的 cuda
以cuda11爲例,根據Dockerfile得出安裝命令如下
# 以升級到cuda11爲例
apt-get update && apt-get install -y --no-install-recommends
cuda-cudart-11-0=11.0.221-1
cuda-compat-11-0 &&
ln -s cuda-11.0 /usr/local/cuda &&
rm -rf /var/lib/apt/lists/*
安裝所需版本的 nvcc
以cuda10版本的nvcc爲例,根據Dockerfile得出安裝命令如下
# "10-0" 表示安裝CUDA10.0版本的 nvcc, 應根據鏡像中cuda版本安裝
apt-get update && apt-get install -y --no-install-recommends
apt install cuda-command-line-tools-10-0
rm -rf /var/lib/apt/lists/*
cudnn 與 tensorRT 安裝教程
# 檢查系統若輸出 16.04,請用下面的命令
curl -fsSL https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1604/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1604/x86_64//" > /etc/apt/sources.list.d/cuda.list
# 檢查系統若輸出 18.04,請用下面的命令
curl -fsSL https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1804/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1804/x86_64//" > /etc/apt/sources.list.d/cuda.list
> cudnn、tensorRT在騰訊源的nvidia-machine-learning中有,軟件的對應的版本可以在騰訊源中搜索查到。 https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1804(1604)/x86_64/
安裝所需版本的 cudnn
以cuda10.2下cudnn 8.0.3版本爲例,根據Dockerfile得出安裝命令如下
# 這裏以cudnn 8.0.3.33版本爲例
apt-get update && apt-get install -y --no-install-recommends
libcudnn8=8.0.3.33-1+cuda10.2
&& apt-mark hold libcudnn8 &&
rm -rf /var/lib/apt/lists/*
安裝所需版本的 tensorRT
根據TensorFlow的官方文檔得出安裝命令如下
> https://www.tensorflow.org/install/gpu
# 這裏以tensorRT 7.1.3版本爲例
apt-get install -y --no-install-recommends libnvinfer7=7.1.3-1+cuda11.0
libnvinfer-dev=7.1.3-1+cuda11.0
libnvinfer-plugin7=7.1.3-1+cuda11.0