服务器从0开始安装系统以及配置深度学习环境

一、下载ubuntu18.04系统镜像文件
http://mirrors.aliyun.com/ubuntu-releases/18.04/
二、制作系统盘(u盘)
下载系统盘制作软件UltraISO:UltraISO官方下载地址:http://cn.ultraiso.net/xiazai.html   (软件试用即可无需破解)
制作步骤参考:https://blog.csdn.net/qq_35379989/article/details/78934594
三、启动服务器,安装系统,按照流程走就ok了,
    查看IP地址的命令:ifconfig -a
    使用上述命令之前需要先:sudo apt-get update(更新)
                     sudo apt install net-tools
    安装vim:sudo apt-get install vim
四、在Ubantu18.04上开启ssh服务,实现远程连接
     a、首先更新源列表:sudo apt-get update
     b、安装openssh-client
    在终端中输入: sudo apt-get install openssh-client
     c、sudo apt-get install -y openssh-server或者sudo apt-get install openssh sever
     d、启动ssh服务
    在终端中输入:sudo service ssh start
     e、可以查看是否启动成功
    在终端中输入:sudo ps -e | grep ssh
     f、使用xshell连接,具体操作省略。
五、安装Nvidia驱动的操作步骤:
    1、sudo apt-get purge nvidia-*  //删除可能存在的已有驱动
    2、关闭:nouveau
         echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf (一起执行)
    3、sudo update-initramfs -u  //更新配置文件
    4、重启:sudo reboot
    5、sudo add-apt-repository ppa:graphics-drivers/ppa   //添加Graphic Drivers PPA
         sudo apt-get update
         sudo reboot
    6、查看需要下载驱动版本的代码:ubuntu-drivers devices
    7、安装nvidia驱动:sudo apt-get install nvidia-430(后面的数字是根据实际情况来选择,有可能中间还会有server,例如:nvidia-driver-396)
    8、查看安装成功与否:sudo nvidia-smi
六、安装CUDA(18.04)
    1、安装前的配置更改:
        1、由于CUDA 9.0仅支持GCC 6.0及以下版本,而Ubuntu 18.04预装GCC版本为7.3,所以需要gcc降级,查看gcc和g++版本号:gcc -v ;g++ -v 
        2、下载gcc4.8:sudo apt-get install gcc-4.8
                      sudo apt-get install g++-4.8
        3、装完后进入到/usr/bin目录下执行:ls -l gcc*
             会显示以下结果:lrwxrwxrwx 1 root root 7th May 16 18:16 /usr/bin/gcc -> gcc-7.3
        4、发现gcc链接到gcc-7.0, 需要将它改为链接到gcc-4.8,方法如下:
            sudo mv gcc gcc.bak #备份
            sudo ln -s gcc-4.8 gcc #重新链接
        5、同理,对g++也做同样的修改:ls -l g++*
            sudo mv g++ g++.bak
            sudo ln -s g++-4.8 g++
        6、再查看gcc和g++版本号,均显示gcc version 4.8 ,说明gcc 4.8安装成功。
    2、安装cuda ,及其补丁
        1、首先,根据cuDNN 的版本,目前,较为完善的,是cuDNN v7.0.5 ,其适用于 CUDA 9.1 版本,所以,咱们在选择安装cuda的时候,选择 CUDA 9.1:官网地址:https://developer.nvidia.com/cuda-91-download-archive?            target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1604&target_type=runfilelocal
        2、安装cuda主文件:sudo sh cuda_9.1.85_387.26_linux.run
            需要注意的是,之前已经安装过显卡驱动程序,故在提问是否安装显卡驱动时选择no,其他 选择默认路径或者yes即可。即第二次出现选项时选择n
        3、和主文件一样,依次安装3个补丁文件:例如sudo sh cuda_9.1.85.1_linux.run
        4、安装完毕之后,将以下两条加入.bashrc文件中,该文件在主目录中,可以自行查找:
            打开该文件:sudo vim ~/.bashrc

            然后输入下面2行命令:
            export PATH=/usr/local/cuda-9.1/bin${PATH:+:${PATH}}  #注意,根据自己的版本,修改cuda-9.2/9.0...

        export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}  #注意,根据自己的版本,修改cuda-9.2/9.0...
        5、最后执行:source ~/.bashrc    有时候也需要重启。
七、安装cuDnn(18.04)
    1、进入cudnn官网下载文件(需要注册才能下载):https://developer.nvidia.com/rdp/cudnn-archive
         下载的文件有,版本根据实际情况修改:
                       libcudnn7_7.0.3.11-1+cuda9.0_amd64.deb
         libcudnn7-dev_7.0.3.11-1+cuda9.0_amd64.deb
         libcudnn7-doc_7.0.3.11-1+cuda9.0_amd64.deb
    2、安装以上文件:安装命令
        sudo dpkg -i libcudnn7_7.0.3.11-1+cuda9.0_amd64.deb
        sudo dpkg -i libcudnn7-dev_7.0.3.11-1+cuda9.0_amd64.deb
        sudo dpkg -i libcudnn7-doc_7.0.3.11-1+cuda9.0_amd64.deb
    3、测试是否成功,依次运行如下命令:
        cp -r /usr/src/cudnn_samples_v7/ $HOME
        cd $HOME/cudnn_samples_v7/mnistCUDNN
        make clean && make
        ./mnistCUDNN
    最终如果有提示信息:“Test passed! ”,则说明安装成功。
八、安装深度学习环境,参考:https://blog.csdn.net/Charlotte_android/article/details/81508656
    安装完anacond时,需要配置环境,才能使用conda下载包
    1、使用命令:vim ~/.bashrc 修改环境变量
    2、在文本最后添加命令:export PATH=~/anaconda3/bin:$PATH
    3、重启环境变量:source ~/.bashrc
九、设置静态ip
    因为Ubuntu18.04采用的是netplan来管理network。在/etc/netplan/目录下有一个缺省文件:01-network-manager-all.yaml,我们可以自己为网卡再建一个文件,也可直接修改这个文件。比如01-netplan.yaml文件
    打开它,然后在此文件下写入以下配置:
network:
  version: 2
  renderer: networkd
    ethernets:
        enp0s31f6:
            addresses: [192.168.2.41/24]
            dhcp4: false
            optional: true
            gateway4: 192.168.2.1
            nameservers:
                addresses: [8.8.8.8]
    注意点:
    1.以上配置文件共11行,其中第2,3行可以不写,测试过没有这2行,网络也能工作正常,第5行的"enp0s31f6"为虚拟网卡,可以使用ifconfig -a查看本机的网卡进行更改,注意更改的是冒号前面的名称,后面没有东西。addresses里的ip就是你想设置的静态ip。
    2.配置文件里在冒号:号出现的后面一定要空一格,不空格则在运行netplan apply时提示出错。
    3.关键是看清配置总共分为多个层级,逐层向后至少空一格,
    例如:

network:
  version: 2
  ethernets:
          enp0s31f6:
                  addresses: [192.168.2.83/24]
                  dhcp4: false
                  gateway4: 192.168.2.177
                  nameservers:
                          addresses: [8.8.8.8]

也可参考:https://blog.csdn.net/qq_42975842/article/details/81705244
最后执行生效:sudo netplan apply

十、禁止系统内核自动升级

安装好系统与环境以后,机器容易在关机时自动升级内核版本,导致nvidia驱动版本与内核版本不匹配,无法使用gpu,出现如下错误:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver。解决办法有2个:

       1、禁止内核更新,运行命令:sudo apt-mark hold linux-image-4.4.0-145-generic (其中的内核版本是与能够运行gpu的内核版本相一致);

       2、命令行关闭系统自动更新,使用命令打开文件并编辑:sudo vim /etc/apt/apt.conf.d/10periodic

APT::Periodic::Update-Package-Lists "0";
APT::Periodic::Download-Upgradeable-Packages "0";
APT::Periodic::AutocleanInterval "0";
APT::Periodic::Unattended-Upgrade "1";

将双引号中的“1”全部置“0”即可,修改后保存。

如果要使用图形界面来关闭自动更新,找到系统设置(System Settings) --> 软件更新(Software & Updates) 

将 Automatically check for updates 一栏选择为:Never

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章