1.nvidia驱动安装
(1)移除旧驱动
sudo apt-get purge nvidia\*
#部分 Debian 系发行版版本可能不支持 apt-get purge ,可尝试使用 apt-get remove –purge 或 apt-get autoremove –purge 替代
(2)添加驱动 PPA
# Add the graphics-driver PPA
sudo add-apt-repository ppa:graphics-drivers
# And update
sudo apt-get update
(3)查询显卡驱动https://www.nvidia.com/Download/index.aspx?lang=en-us
或者
ubuntu-drivers devices # 查询所有ubuntu推荐的驱动
(4)安装(启用)最新 Nvidia 显卡驱动
sudo apt-get install nvidia-你的版本号
(5)重启电脑以使新驱动生效
reboot
lsmod | grep nvidia
Ubuntu下安装Docker
添加阿里Docker镜像源
参考 https://yq.aliyun.com/articles/110806?commentId=11066
如果之前安装过Docker的旧版本,可以使用下面的命令进行卸载:
sudo apt-get remove docker docker-engine docker.io
Ubuntu 14.04 16.04 (使用apt-get进行安装)
# step 1: 安装必要的一些系统工具
sudo apt-get update
sudo apt-get -y install apt-transport-https ca-certificates curl software-properties-common
# step 2: 安装GPG证书
curl -fsSL http://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -
# Step 3: 写入软件源信息
sudo add-apt-repository "deb [arch=amd64] http://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"
# Step 4: 更新并安装 Docker-CE
sudo apt-get -y update
sudo apt-get -y install docker-ce
# 安装指定版本的Docker-CE:
# Step 1: 查找Docker-CE的版本:
# apt-cache madison docker-ce
# docker-ce | 17.03.1~ce-0~ubuntu-xenial | http://mirrors.aliyun.com/docker-ce/linux/ubuntu xenial/stable amd64 Packages
# docker-ce | 17.03.0~ce-0~ubuntu-xenial | http://mirrors.aliyun.com/docker-ce/linux/ubuntu xenial/stable amd64 Packages
# Step 2: 安装指定版本的Docker-CE: (VERSION 例如上面的 17.03.1~ce-0~ubuntu-xenial)
# sudo apt-get -y install docker-ce=[VERSION]
安装校验
root@iZbp12adskpuoxodbkqzjfZ:$ docker version
Client:
Version: 17.03.0-ce
API version: 1.26
Go version: go1.7.5
Git commit: 3a232c8
Built: Tue Feb 28 07:52:04 2017
OS/Arch: linux/amd64
Server:
Version: 17.03.0-ce
API version: 1.26 (minimum version 1.12)
Go version: go1.7.5
Git commit: 3a232c8
Built: Tue Feb 28 07:52:04 2017
OS/Arch: linux/amd64
Experimental: false
也可以用systemctl status docker.service查看Docker运行状态。
安装nvidia-docker
参考 https://github.com/NVIDIA/nvidia-docker
这里只说一下Ubuntu的,其他Linux变种的安装方式在Github上可以找到。
# If you have nvidia-docker 1.0 installed: we need to remove it and all existing GPU containers
docker volume ls -q -f driver=nvidia-docker | xargs -r -I{} -n1 docker ps -q -a -f volume={} | xargs -r docker rm -f
sudo apt-get purge -y nvidia-docker
# Add the package repositories
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | \
sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
# Install nvidia-docker2 and reload the Docker daemon configuration
sudo apt-get install -y nvidia-docker2
sudo pkill -SIGHUP dockerd
# Test nvidia-smi with the latest official CUDA image
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
(2)根据需要拉取自己的docker
去https://hub.docker.com/上查看自己需要的docker并pull下来
例如
docker pull pytorch/pytorch:1.4-cuda10.1-cudnn7-devel;
#创建容器
nvidia-docker run --name=wangxp1 -d -e GPUID="0" -e INSTANTID="1" -it -p 12345:12345 -v /home/wangxp1:/workspace -d pytorch/pytorch:1.3-cuda10.1-cudnn7-devel
启动docker
docker start wangxp1
进入docker有两种方法
#1.可以多人同时进入,并分别操作
docker exec -it wangxp1 bash
#2可以多人同时进入,但都是一个操作
docker attach wangxp1