ubuntu重裝NVIDIA顯卡(經過記錄)遇到問題到卸載ubuntu再到成功安裝

2019/3/10:本來準備升級英偉達官方驅動下載搭配合適CUDA+cuDNN+GPU-tensorflow,網上教程很多,按照教程下載了顯卡匹配的最新驅動,卸載了安裝ubuntu後在附加驅動裏面自動下載的官方驅動390版本,準備禁止X-Window的,使用命令如下:

sudo service lightdm stop

但是遇到了問題,報錯如:

Failed to stop lightdm.service: Unit lightdm.service not loaded.

看到有網友答覆start在stop在restart,就嘗試如下:

sudo service lightdm start

依然有問題,且類似:

Failed to start lightdm.service: Unit lightdm.service not found.

很明顯,這是一類問題,但是在網上沒有找到解決方案,在ubuntu終端和ctrl+alt+F3進入的tt3和終端輸入sudo init 3進入的輸入上述命令結果完全相同,索性直接設置安裝包再安裝:

sudo chmod a+x NVIDIA-Linux-x86_64-418.43.run
sudo ./NVIDIA-Linux-x86_64-418.43.run

ctrl+alt+F1每次登陸都會閃爍一下,重啓後,登錄無閃爍,查看電腦切換成集成顯卡了,安裝失敗,日誌如下:

nvidia-installer log file '/var/log/nvidia-installer.log'
creation time: Sun Mar 10 21:30:00 2019
installer version: 418.43

PATH: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/snap/bin

nvidia-installer command line:
    ./nvidia-installer

Unable to load: nvidia-installer ncurses v6 user interface

Using: nvidia-installer ncurses user interface
-> Detected 4 CPUs online; setting concurrency level to 4.
-> Installing NVIDIA driver version 418.43.
-> Running distribution scripts
   executing: '/usr/lib/nvidia/pre-install'...
-> done.
-> The distribution-provided pre-install script failed!  Are you sure you want to continue? (Answer: Abort installation)
ERROR: Installation has failed.  Please see the file '/var/log/nvidia-installer.log' for details.  You may find suggestions on fixing installation problems in the README available on the Linux driver download page at www.nvidia.com.

搜索後發現有網友遇到此類問題,說明是X-Window的問題,回到了原問題,重試禁止X-Window依然不行,直接輸入lightdm發現並沒有安裝,然後安裝lightdm:

sudo apt-get install lightdm

安裝完成後輸入前面的啓動命令並無報錯,然後刪除暫停命令,進入命令行,嘗試安裝英偉達驅動,成功進入,其中選擇參考(),安裝的時候忘記加:

–no-opengl-files 

選項有一個選得不一樣,安裝完成了,進入桌面彈出系統損壞,當時沒有注意看,總之是有什麼重要文件損壞了,然後就必須重啓電腦,重啓之後,再也進不去桌面了,就是有下劃線在屏幕左上角閃爍,可以按ctrl+alt+F1~6進入對應的tty命令行,在裏面使用nvidia-smi查看英偉達驅動確實安裝成功了,但是不能進入桌面,嘗試卸載驅動,然後按照那個鏈接中的輸入和選項輸入重新安裝驅動,還是不能進入桌面,嘗試卸載桌面重新安裝:

sudo apt-get --purge remove desktop
sudo apt-get install desktop

也不能進入,在引導界面選擇ubuntu高級選項,選擇recovery模式,然後選擇root,在這裏重新安裝桌面依然進不去,然後準備嘗試前些天安裝ubuntu遇到不能進入桌面情況(兩種情況有所不同)時的方法,在引導界面選擇ubuntu不按回車按E進行編輯,在倒數第二行的quiet splash $vt_handoff後面空一格加上acpi_osi=linux nomodeset依然進不去,嘗試各種方法,一直都是屏幕左上方有下劃線閃爍,僅僅能按ctrl+alt+F1~6進入tty,在網上也沒有找到解決方案,因爲自己對ubuntu接觸很少,實在是找不到什麼解決方法,最後只能放棄,選擇卸載ubuntu重新安裝,再重新嘗試升級驅動。卸載的過程中也遇到了一點問題,我是進入windows後通過磁盤管理直接刪除了ubuntu的分區,但是重啓後按F9進入的啓動選項菜單中發現有ubuntu啓動引導選項,選擇後進入的是grub界面,重啓後下載了EasyUEFI,在裏面刪除ubuntu的efi,再次重啓發現ubuntu選項依然存在,ubuntu的efi殘留還沒有刪除,實際上這個殘留和windows的efi在一起,儘管ubuntu是後安裝的,並且不是和windows安裝在同一個固態,而是完全在另一個機械硬盤上,想刪除這個EFI文件是怕這個殘留會對重裝ubuntu有影響,最後就參考了這篇文章(https://blog.csdn.net/mtllyb/article/details/78635757),具體操作如下:

一、通過管理員身份運行cmd,並選擇磁盤:

diskpart
list disk
select disk 0
list partition

這裏選擇disk 0是因爲磁盤0是efi所在的硬盤

二、選擇efi分區爲其分配掛載點,建立磁盤:

select partition 1
assign letter = p

發現多出了一個磁盤P,這裏的P就是上面assign letter = p的P,名稱不一定要爲P,只要不和自己原有的磁盤重名即可,點擊磁盤無法打開,需要權限,就沒有直接操作

三、在win中搜索記事本通過管理員身份運行,點擊文件選擇打開然後選擇磁盤P,打開磁盤P下面的EFI文件夾,發現有ubuntu文件夾,直接右鍵刪除,注意別刪除錯了文件,選中ubuntu文件夾刪除即可

刪除後如下:

 

四、刪除成功後關閉記事本,回到cmd中,刪除EFI分區的掛在磁盤:

remove letter = p

重啓電腦發現啓動選項中ubuntu引導啓動項已經消失:

進入系統後通過EasyUEFI查看ubuntu的EFI也消失了:

至此,ubuntu刪除完成,使用記事本打開刪除ubuntu的EFI文件是參照上面所給鏈接中的方法,沒有嘗試過其他方法,此方法也並不複雜。至於網上有很多說法要修復分區之類的,我也沒有進行嘗試,不知道這個到底有沒有影響。

 

2019/3/11:重新安裝好ubuntu,這次直接下載對應顯卡的英偉達最新驅動,禁止了nouveau,使用的是集顯,沒有在附加驅動裏面安裝nvidia-390,下載好lightdm,關閉lightdm退出桌面進入黑屏左上角有下劃線閃爍的狀態,ctrl+alt+F3進入tty3,chmod a+x修改好安裝包屬性,然後安裝,安裝也遇到問題,先是沒有gcc和cc,安裝了,然後又是沒有make,安裝好,繼續安裝驅動,安裝好了,然後啓動lightdm:

sudo service lightdm start或者sudo service lightdm restart

直接進入關閉lightdm時的黑屏左上角下劃線閃爍的狀態,無論重複多少次都是如此,然後關閉lightdm嘗試gdm:

sudo dpkg-reconfigure lightdm

選擇gdm3,然後啓動gdm3:

sudo service gdm start或者sudo service gdm3 start

到了可以輸入密碼的界面,輸入密碼之後不是登入桌面而是重複輸入密碼,進入循環登錄狀態,而切換成lightdm又進入黑屏左上角下劃線閃爍狀態,嘗試卸載驅動重裝:

sudo ./NVIDIA-Linux-x86_64-418.43.run --uninstall
sudo service lightdm stop
sudo ./NVIDIA-Linux-x86_64-418.43.run --no-opengl-files
sudo service lightdm start

這時lightdm的界面終於不閃爍,但是出現了和gdm一樣的問題,就是循環登錄,後來又卸載一次驅動,在卸載的時候,卻報錯了,之後在命令行輸入nvidia-smi都不會提示有哪些推薦安裝的英偉達驅動,然後重新安裝英偉達驅動,再nvidia-smi查看,確實又安裝回來了,不過再啓動lightdm又進入黑屏閃爍狀態,連循環登錄都不是了,中間輸入很多自己從未見過用過的命令,感覺系統沒救了,重新安裝。

安裝完成後再次裝上gcc、make、lightdm,下載好驅動安裝包,禁用nouveau驅動(重啓後自動使用集顯)。禁止lightdm進入黑屏閃爍狀態,進入tty1(ctrl+alt+F1),再次修改屬性安裝:

sudo chomd a+x ./NVIDIA-Linux-x86_64-418.43.run
sudo ./NVIDIA-Linux-x86_64-418.43.run --no-opengl-files

遇到這個選擇時:

Would you like to run the nvidia-xconfig utility to automatically update your X Configuration file so set the NVIDIA X driver will be used when you restart X?

和以往一樣選擇的Yes,安裝結束後在tty編輯界面輸入nvidia-smi查看英偉達驅動,已經安裝成功,但是輸入命令sudo service lightdm start啓動lightdm時,並沒有進入輸入密碼的登錄界面,而是進入黑屏閃爍狀態,ctrl+alt+F7也是該狀態,然後進入tty1,卸載了剛剛安裝的英偉達驅動,重新安裝,在遇到上述選項時選擇No,安裝結束後,啓動lightdm,這次進入了輸入密碼登錄界面,輸入密碼後,成功將進入桌面,終於成功,不過使用的仍然是集成顯卡,顯卡切換還需要繼續,而且使用nvidia-smi查看顯示使用該顯卡的進程的部分顯示的是No running processes found,nvidia-settings打不開英偉達的顯卡設置,報錯unable to load info from any available system,顯然雖然驅動裝上去了,但是根本無法使用。

這種狀態一直找不到解決方法,nvidia-prime也不管用:

sudo apt-get install nvidia-prime
sudo prime-select nvdia
prime-select query

使用prime-indicator也不管用:

sudo add-apt-repository ppa:nilarimogard/webupd8
sudo apt-get update
sudo apt-get install prime-indicator

重啓後屏幕右上角出現圖標點擊後選擇 Open NVIDIA Settings沒有任何反應,選擇Quick switch graphics註銷重新登陸確實可以切換英偉達獨立顯卡和英特爾的集成顯卡,可以發現這個圖標的變化,這裏截圖是英偉達的標誌,而另一個是英特爾標誌,而且英特爾標誌是終端輸入nvidia-smi會報錯,沒有英偉達顯卡信息提示,但是切換到英偉達顯卡時通過設置中詳細信息查看依然是集成顯卡在起作用,和上圖一致。

 

2019/3/16:有吧友說是內核4.20.x以下的版本無法安裝418,故而更新了內核(內核下載鏈接:https://kernel.ubuntu.com/~kernel-ppa/mainline/),安裝好了之後nvidia-smi查看發現之前的驅動顯示都沒有了,卸載重裝,安裝過程中遇到gcc與編譯內核的gcc版本不一致的問題

nvidia-installer log file '/var/log/nvidia-installer.log'
creation time: Sat Mar 16 21:45:18 2019
installer version: 418.43

PATH: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/snap/bin

nvidia-installer command line:
    ./nvidia-installer
    --no-opengl-files

Unable to load: nvidia-installer ncurses v6 user interface

Using: nvidia-installer ncurses user interface
-> Detected 4 CPUs online; setting concurrency level to 4.
-> Installing NVIDIA driver version 418.43.
-> Running distribution scripts
   executing: '/usr/lib/nvidia/pre-install'...
-> done.
-> The distribution-provided pre-install script failed!  Are you sure you want to continue? (Answer: Continue installation)
-> Performing CC sanity check with CC="/usr/bin/cc".
-> Kernel source path: '/lib/modules/4.20.16-042016-generic/build'
-> Kernel output path: '/lib/modules/4.20.16-042016-generic/build'
-> The CC version check failed:

The kernel was built with gcc version 8.3.0 (Ubuntu 8.3.0-2ubuntu2), but the current compiler version is cc (Ubuntu 7.3.0-27ubuntu1~18.04) 7.3.0.

This may lead to subtle problems; if you are not certain whether the mismatched compiler will be compatible with your kernel, you may wish to abort installation, set the CC environment variable to the name of the compiler used to compile your kernel, and restart installation. (Answer: Abort installation)
ERROR: Installation has failed.  Please see the file '/var/log/nvidia-installer.log' for details.  You may find suggestions on fixing installation problems in the README available on the Linux driver download page at www.nvidia.com.

 

2019/3/17:昨天本來是打算準備升級gcc到8.3.0再安裝驅動,今天沒有這麼做,而是直接安裝,安裝驅動成功了,nvidia-smi查看的時候,發現獨顯確實是在使用了,顯示進程的地方不再是no running processes found,但是詳細信息顯示的是llvmpipe,nvidia-settings打開的設置中並沒有PRIME Profiles選項,無法切換顯卡,準備下載prime-indicator:

sudo add-apt-repository ppa:nilarimogard/webupd8

sudo apt-get update

sudo apt-get install prime-indicator

然後重啓,但是無法進入桌面,黑屏下劃線光標沒有閃爍,看起來像卡死狀態,不過可以進入tty(ctrl+alt+F1~6),卸載了驅動,啓動lightdm無法進入桌面,重啓後即可輸入密碼進入桌面,某有卸載prime-indicator,這次重裝驅動,nvidia-smi查看是正常使用,nvidia-settings中依然沒有PRIME Profiles,詳細信息中是llvmpipe,prime-indicator顯示是英偉達顯卡,通過prime-indicator切換顯卡後變成了英特爾集成顯卡,詳細信息裏面也變成了英特爾集顯,切換英偉達則又是llvmpipe,始終不得解決。未完待續...

 

2019/3/19:參考https://www.cnblogs.com/luofeel/p/8654964.html,換了一種方式,添加ppa源,方式如下:

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo add-apt-repository ppa:xorg-edgers/ppa
sudo apt-get update

更新後,查看軟件與更新的附加驅動

可以看到多了4個官方驅動,不過是開源的,感覺奇怪(因爲本人是初學者,據我所知,nvidia官方驅動是閉源的,所以這裏就很不明白,如果有什麼錯誤或者補充的,希望大家能夠指正),儘管如此,我還是嘗試安裝,選擇想要安裝的驅動(我一直是在安裝ubuntu下最新的418版本,這裏很顯然有),然後點擊應用更改等待即可(需要注意的是,這裏中間可能會中斷一次,中斷後需要重新選擇剛剛選擇安裝的驅動,再次點擊應用更改),待完成後重啓電腦即可,重啓後發現nvidia-smi顯示的顯卡信息中,在進程一欄,不再是之前那種no running processes found而是使用顯卡的進程,詳細信息中也變成了英偉達的獨顯,nvidia-settings可以打開設置,而且有PRIME Profiles了,這種方法成功安裝並且操作極其簡單。不過值得注意的是,據說該方式附加驅動裏面不一定有最新版本的驅動,而且可能遇到其它問題,不過我是一次成功,目前沒有發現什麼問題。

 

2019/3/22:安裝cuda+cudnn,安裝最新的cuda10.1,安裝界面好像有所不同,第一次選擇錯了,安裝了驅動,安裝了cuda自動安裝的418.39驅動,後面發現nvidia-settings中沒有PRIME Profiles,雖然通過prime-indicator可以切換,但是仍然試圖找到這個PRIME Profiles,最後不得已卸載了這次安裝的cuda,418.39的驅動還在,然後卸載驅動,這次使用的時命令:

sudo apt-get remove --purge nvidia*

卸載重啓後,發現418.43的驅動還在,安裝cuda時並沒有卸載這個驅動安裝418.39,而是安裝了418.39,不過這個驅動出現了問題,出現了前面提到過的no running processes found,但是附加驅動裏面顯示的還是手動安裝的而不是那個通過添加ppa源後安裝的418,而且不能更換選擇,通過前面的418.43的run安裝包不能卸載該驅動,雖然版本一致,最後不得已再次重裝系統,這次沒有升級內核到4.20.x,使用的就是系統默認的,可能自動升級過,不過依然時4.20以下的版本,還是通過添加ppa源再在附加驅動裏面安裝的驅動,這次也沒有出現問題,而前面說過在遇到no running processes found問題詢問時,有網友提到418需要4.20.x的驅動才能使用,當時升級內核之後確實有效(當時時通過run文件再tty中安裝的),不過這次沒有升級內核通過不同的方法,正常安裝成功,能夠使用,所以有些疑惑,如果大家懂得相關知識,希望給予說明。

 

下載的官網最新版的cuda10.1(官網卸載鏈接:https://developer.nvidia.com/cuda-toolkit-archive),和最開始安裝nvidia顯卡一樣下載的.run文件,選擇的最新版本cuda10.1.105,該版本自帶的驅動是nvidia-418.39,上面提到過這個驅動,我是在終端直接運行安裝:

sudo sh cuda_10.1.105_418.39_linux.run

這個版本的安裝和以前的版本不同(後面我安裝cuda10.0也可以看見),因爲以前的版本是命令行選擇,而這裏卻不是(具體如下圖),選擇的地方只有兩次,一次是最開始的EULA選擇accept,然後就是cuda installer界面選擇安裝的東西,一共有5項,需要注意的是,默認情況是全部都選擇了,也就是前面有叉(×)代表選中安裝,沒有就是不安裝(我第一次搞錯了,以爲有叉是不安裝,所以選把後面4項的叉都去掉了,只留下了驅動的叉,結果安裝了驅動,將我原本的418.43驅動替換成了418.39,後面還是卸載也替換不回,所以這裏非常需要注意)

安裝結果如上圖,下面的警告(WARNING)中的部分好像是因爲我提前安裝了驅動,並不是驅動版本不夠提示(我安裝的是418.43),而沒有在這裏安裝該cuda中自帶的驅動(從其它博客上得知,自己並未嘗試),還有就是missing recommended libraries缺少一些庫,關於這部分的問題,大家如果知道,希望予以指正,感激不盡!

×××補充添加庫(運行實例程序的依賴庫,我最開始沒有添加運行了sample中的程序,後面又添加了,再運行沒有發現什麼不同):

sudo apt-get install freeglut3-dev
sudo apt-get install libx11-dev
sudo apt-get install libxmu-dev
sudo apt-get install libxi-dev
sudo apt-get install libgl1-mesa-glx
sudo apt-get install libglu1-mesa
sudo apt-get install libglu1-mesa-dev

然後配置環境:

sudo gedit ~/.bashrc

打開後在最後面添加如下代碼(關於這裏環境添加的路徑寫法問題,並不止這一種,網上可以搜得多種,此處我也只是照搬其中一種寫法):

export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

然後更新環境:

source ~/.bashrc

這裏的cuda鏈接cuda10.1,方法均是參考其它博客,我目前沒有發現什麼錯誤之處,再可查看cuda:

nvcc --version或者nvcc -V

然後測試cuda:

cd /usr/local/cuda-10.1/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery

這裏和其它人有點不同,就是最後免deviceQuery開頭那一部分並沒有顯示顯卡信息,這裏也不清楚原因。

 

然後安裝cudnn,在官網下載的cudnn,下載cudnn需要登錄帳號(註冊的時候時候需要做問卷調查),我下載的是最新版的cudnn7.5.0(我安裝的時候7.5.0是最新版,並沒有直接列出,需要勾選那個I Agree To the Terms of the cuDNN Software License Agreement才能看見cuDNN7.5),選擇cuDNN Library for Linux,如圖:

下載後先解壓,可以通過命令行,也可以直接打開提取,解壓的位置並沒有任何影響。因爲需要將裏面所需要的文件複製到安裝的cuda的子目錄中:

sudo cp /home/hhm/下載/cuda/include/cudnn.h /usr/local/cuda/include
sudo cp /home/hhm/下載/cuda/lib64/libcudnn* /usr/local/cuda/lib64

實際是複製了5個文件,1個頭文件,4個lib相關文件。然後更改屬性、查看cudnn:

sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

 

安裝tensorflow-gpu:先安裝了anaconda3(也可以不安裝anaconda3,直接安裝tensorflow,因爲已經安裝了cuda和cudnn,安裝對應版本的tensorflow即可),下載官網python3.7發行版,因爲tensorflow1.13支持python3.7了

選擇自己對應的,我是是第一行那個,安裝十分簡單,輸入命令:

bash Anaconda3-2018.12-Linux-x86_64.sh

一直按回車,後面有選擇的都選擇yes(有路徑配置的,如果沒有輸入的no沒那麼後面要自己在.bashrc中添加路徑配置環境),其中要安裝vscode的我選擇的no,安裝後後可查看信息

在anaconda中爲tensorflow配置虛擬環境,用以安裝tensorflow,我的如下:

conda create -n tensorflow_3.7 python=3.7
tensorflow_3.7是我這裏創建的名稱,名稱隨意,好記即可,後面指定對應的python版本

查看環境:其中的tensorflow_3.7就是剛纔鎖創建的環境,後面爲對應目錄,激活和關閉即爲:

conda activate tensorflow_3.7
conda deactivate tensorflow_3.7/conda deactivate

以前沒有在anaconda虛擬環境下安裝tensorflow的時候激活和關閉是這樣的:

source activate tensorflow
source deactivate tensorflow/source deactivate

在安裝anaconda之前,系統默認的python和python2鏈接指向python2.7,python鏈接指向python3.6,自己又安裝過python3.7,不過並沒有修改鏈接設置,安裝anaconda之後,python和python3默認指向python3.7:

可以看到圖中anaconda,表明anaconda安裝成功。

然後安裝tensorflow,我沒有使用conda安裝,而是使用的pip,我用pip查找:

pip search tensorflow

發現了tensorflow-gpu有最新版本1.13.1,就使用pip安裝,安裝的時候先激活tensorflow_3.7(這樣是爲了將tensorflow安裝在此虛擬環境中),然後安裝:

conda activate tensorflow_3.7
pip install tensorflow-gpu

安裝的就是最新版本,準備使用,import tensorflow as tf卻出現問題:

報錯信息如下:

Traceback (most recent call last):
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in <module>
    from tensorflow.python.pywrap_tensorflow_internal import *
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 28, in <module>
    _pywrap_tensorflow_internal = swig_import_helper()
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 24, in swig_import_helper
    _mod = imp.load_module('_pywrap_tensorflow_internal', fp, pathname, description)
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/imp.py", line 242, in load_module
    return load_dynamic(name, filename, file)
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/imp.py", line 342, in load_dynamic
    return _load(spec)
ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/__init__.py", line 24, in <module>
    from tensorflow.python import pywrap_tensorflow  # pylint: disable=unused-import
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/__init__.py", line 49, in <module>
    from tensorflow.python import pywrap_tensorflow
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow.py", line 74, in <module>
    raise ImportError(msg)
ImportError: Traceback (most recent call last):
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in <module>
    from tensorflow.python.pywrap_tensorflow_internal import *
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 28, in <module>
    _pywrap_tensorflow_internal = swig_import_helper()
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 24, in swig_import_helper
    _mod = imp.load_module('_pywrap_tensorflow_internal', fp, pathname, description)
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/imp.py", line 242, in load_module
    return load_dynamic(name, filename, file)
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/imp.py", line 342, in load_dynamic
    return _load(spec)
ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory


Failed to load the native TensorFlow runtime.

See https://www.tensorflow.org/install/errors

for some common reasons and solutions.  Include the entire stack trace
above this error message when asking for help.

這裏提出cuda10.0的問題,我安裝的是cuda10.1,而且從其它博客得知,有安裝cuda10.1和tensorflow13.1成功的。

 

安裝第二個cuda,cuda10.0:

Do you accept the previously read EULA?
accept/decline/quit: accept

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 410.48?
(y)es/(n)o/(q)uit: n 注:安裝了更高版本顯卡不需要安裝

Install the CUDA 10.0 Toolkit?
(y)es/(n)o/(q)uit: y

Enter Toolkit Location
 [ default is /usr/local/cuda-10.0 ]: 

Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y 注:這裏是創建cuda到即將安裝的cuda10.0的符號鏈接,之前是到cuda10.1符號鏈接,我需要使用cuda10.0而不是10.1,所以這裏直接覆蓋,當然,符號鏈接可以重新設置

Install the CUDA 10.0 Samples?
(y)es/(n)o/(q)uit: y

Enter CUDA Samples Location
 [ default is /home/hhm ]: 

Installing the CUDA Toolkit in /usr/local/cuda-10.0 ...

安裝結果如圖,可以看到差庫,安裝完成後再次運行tensorflow:

 

安裝keras:

pip install keras

查看keras:

 

2019/4/1:今天軟件更新提示更新,然後自動更新完成後,輸入nvidia-smi查看顯卡報錯:

Failed to initialize NVML: driver/library version mismatch

nvidia版本匹配的問題(直接重啓即可解決),使用如下命令查看:

dpkg --list | grep nvidia*

顯示驅動是418.56

然後使用如下命令查看驅動配置版本:

cat /proc/driver/nvidia/version

顯示的是418.43,還未更新,直接重啓即可,開機後nvidia-smi查看即能夠成功顯示,並且是418.56

未完待續...

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章