1. 常用2U 服務器配備有8張nvidia tesla V100 GPU卡,性能測試結果說明:
如果你具有一臺服務器,並且購買了超強計算能力的GPU卡,那麼恭喜你,可以進行一次關於計算機超萬億次計算能力的體驗。
接下來是您要做的:
1. 裝驅動
首先在nvidia官網下載並且安裝該卡該型號的驅動。
2. 繼續安裝CUDA包。
我們來說說CUDA包是幹嘛的,首先大家都知道,驅動,就是對應硬件設備的使能軟件,那麼爲什麼又需要cuda這個東西呢。
因爲我們要使用GPU的話,是爲了把應用程序跑到GPU上面,那麼,就只能通過nvidia他自己提供的API,以及lib庫,來使用它的GPU。
可以看到下面這張圖,從下至上,從屋裏設備到應用加速,其中涉及的很多中間件。
CUDA包中,包含了對應的驅動,如果會使用到CUDA的話,可以只下載對應OS版本的CUDA包也沒有問題。但是請注意,如果使用的爲V100的卡,請使用最新的cuda9.0的包。
3. 相關信息查看。
安裝完成之後,
使用 nvidia-,按tab,來查看nvidia相關的一些相關命令,
nvidia-smi: 而其中最常用的就是nvidia-smi 這個命令,可以查看一下幫助文檔。這個命令會打印每張卡的溫度,內存利用,GPU利用率,功耗,執行的任務,等等。
note:如果您沒有發現該命令, 請確認,是否使用了yum localinstall *.rpm 進行了本地安裝,提示安裝完成了,但在此之後,並沒有把很多相關依賴的包進行安裝,進入
/etc/yum.repos.d/ 目錄,此時,多了一個yum源的配置文件,叫cudaxxx,查看內容,會發現,它指向了/var/路徑,進入到此路徑之後,發現會有一大批的包沒有安裝,
此時,把所有的包都進行安裝,纔是安裝完成。
4.測試
要進行測試的話,其實很簡單,cuda它本身提供了很多的sample程序,並且其中的一個cublas,也是用來進行測試GPU計算能力的程序。
當然,你也可以對這些程序進行參考,寫自己的程序。
下面我們來跑一個例子,進入到目錄:/usr/local/cuda-9.0/samples/5_simulations/
可以看到,其中有一個nbody程序的文件夾,
這個程序,是對物理學中N個質子,說白了就是N個物體,進行互相之間的萬有引力計算,會涉及很對大量的單雙精度浮點的計算,該程序就是實現了這個計算過程,並且調用了GPU,還可以讓用戶通過命令行參數,來控制程序執行的過程。
cd ./nbody 進入到該文件夾。
make
執行:./nbody -benchmark
。此時可以看到程序執行了,並且會打印出來一些可選的參數,如果要使用8個卡均執行的話,那就在Linux上面執行8個進程,每個進程分別綁定到單卡即可。
具體值如下:
9958.723 |
9942.739 |
9919.522 |
9852.494 |
9757.071 |
9717.97 |
9670.115 |
9592.821 |
根據官方提供的10.6TFLOPS的理論性能值,以及官網描述的能夠達到80%的實際測量值即可,可知,這些測量數據,是性能幾乎接近了理論值,達到了94%的性能。
接下來會寫一篇關於GPU 卡直通的博客,歡迎繼續關注。
今天在裝了一個boost等一堆rpm包之後,
gpu的性能已經跑到了標準值。
結果如下:
= 10426.414 single-precision GFLOP/s at 20 flops per interaction
= 10417.990 single-precision GFLOP/s at 20 flops per interaction
= 10424.031 single-precision GFLOP/s at 20 flops per interaction
= 10413.620 single-precision GFLOP/s at 20 flops per interaction
= 10415.790 single-precision GFLOP/s at 20 flops per interaction
= 10408.605 single-precision GFLOP/s at 20 flops per interaction
= 10400.214 single-precision GFLOP/s at 20 flops per interaction
= 10392.723 single-precision GFLOP/s at 20 flops per interaction