原创 一個可能的visual studio 的 cl.exe可能的地址
默認地址是 C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.20.27508\bin\Hostx64\x64
原创 關於CUDA-紋理內存的使用
簡要介紹一下 還是直接上代碼:---有個要點注意一下,由於init_data操作的是設備內存,所以必須在設備代碼中操作,爲了簡單起見所以直接使用了<<<1,1>>>直接初始化,還是停留在串行的程序設計中。然後調用1個塊1024條線程進行
原创 關於CUDA的二維數組
直接上代碼,最奇怪的幾點就是貌似 1.對設備內存的操作-指定二維指針指向的一維指針,需要在設備函數中做,在主機中做會爆炸-- 2.貌似設備的形參就是傳遞了引用。,而不需要加&了,非常奇怪,加了&反而會錯誤。但是在主機代碼中,是需要加& 的
原创 關於 循環展開
可以嘗試在循環前面加上 #pragma unroll 的作用是提示CUDA編譯器,表明這個循環將被自動展開。
原创 CUDA 零拷貝內存
一個簡單的測試程序: #include <cuda_runtime.h> #include <stdio.h> __global__ void sumArraysZeroCopy(float *A, float *B, float *
原创 關於__device__全局變量--變量於數組的問題
如果只是變量,如下即可實現全局變量- 兩種方法: 1. __device__ float devData; float value = 3.14f; cudaMemcpyToSymbol(devData,&value,sizeo
原创 關於-CUDA統一虛擬編址-
總的來說,就是 cudaHostAlloc((void **)&h_A,nBytes,cudaHostAllocMapped); 獲取的h_A也是可以當作設備指針用的,不再需要 cudaHostGetDevicePointer((vo
原创 關於CUDA-共享內存
共享內存只能在一個塊裏面的線程共享,不同塊之間是不能共享shared memory的 簡單聲明一個共享內存的關鍵詞就是__shared__ 聲明數組如 __shared__ int arr[10][20]; 動態聲明數組,如 exte
原创 關於CUDA 分配固定內存
可以使用 float *h_a; CHECK(cudaMallocHost ((float **)&h_a, nbytes)); 來直接分配固定的追內存,而不是虛擬分頁中的內存,好處就是速度會稍微快一些。缺點就是可能內存利用率下
原创 關於如何更新deepin
訪問這個網址https://www.deepin.org/2014/11/07/how-to-update-deepin-system-2/即可 或者在終端輸入: sudo apt-get update && sudo apt-get
原创 關於deepin15.9裝CUDA的一點小提示
首先裝換顯卡配置,直接在DEEPIN的軟件中轉換即可 然後轉換到 會經歷開機-關機-黑屏等等不一而足, 然後成功轉換了, 然後輸入下面的命令 sudo apt install nvidia-cuda-dev nvidia-cuda-
原创 關於選擇顯卡的問題
在./XXXXX(可執行文件)q前面加CUDA_VISIBLE_DEVICES=3 也就是 CUDA_VISIBLE_DEVICES=3 ./XXXXX
原创 關於在集羣上搞GCC-6.5-無權限
## 非Root用戶下編譯GCC 6.5.0 1. **下載gcc-6.5.0** 建議先到網站上下載,然後再通過jupyter上傳到服務器。 ```bash wget https://ftp.gnu.org/gnu/g
原创 關於在集羣上面-nvcc-gcc-6.5-無權限
非Root用戶下編譯GCC 6.5.0 下載gcc-6.5.0 建議先到網站上下載,然後再通過jupyter上傳到服務器。 wget https://ftp.gnu.org/gnu/gcc/gcc-6.5.0/gcc-6.5.0.
原创 CUDA權威編程指南,sys./time.h,windows
我用的是windows,然後跑源碼的時候報了mei沒有<sys./time.h>,畢竟不是linux,所以用了折中的辦法 替換原來的seconds如下 #include <windows.h> inline double second