隨着多核CPU和衆核GPU的到來,並行編程已經得到了業界越來越多的重視,CPU-GPU異構程序能夠極大提高現有計算機系統的運算性能,對於科學計算等運算密集型程序有着非常重要的意義。這一系列文章是根據《CUDA C語言編程指南》來整理的,該指南是NVIDIA公司提供的CUDA學習資料,介紹了CUDA編程最基本最核心的概念,是學習CUDA必不可少的閱讀材料。
初學CUDA,筆記錯誤之處在所難免,還請發現問題的諸位讀者不吝賜教。
1. 什麼是CUDA?
2. CUDA編程模型如何擴展?
3. CUDA基本概念
3.1 內核(Kernels)
CUDA C是C語言的一個擴展,它允許程序員定義一種被稱爲內核函數(Kernel Functions)的C函數,內核函數運行在GPU上,一旦啓動,CUDA中的每一個線程都將會同時並行地執行內核函數中的代碼。
內核函數使用關鍵字__global__來聲明,運行該函數的CUDA線程數則通過<<<...>>>執行配置語法來設置。(參見章節"C語言擴展"),每一個執行內核函數的線程都由一個唯一的線程ID,這一ID可以通過在內核函數中訪問threadIdx變量來得到。
下面通過一些示例代碼來展示剛剛提到的這些概念該如何應用在編程中:
- // Kernel definition
- __global__ void VecAdd(float* A, float* B, float* C) {
- int i = threadIdx.x;
- C[i] = A[i] + B[i];
- }
- int main() {
- ...
- // Kernel invocation with N threads
- VecAdd<<<1, N>>>(A, B, C);
- ...
- }
在上面的代碼中,N個線程將會並行地同時執行加法運算。
3.2 線程層次(Thread Hierarchy)
- // Kernel definition
- __global__ void MatAdd(float A[N][N], float B[N][N], float C[N][N]) {
- int i = threadIdx.x;
- int j = threadIdx.y;
- C[i][j] = A[i][j] + B[i][j];
- }
- int main() {
- ...
- // Kernel invocation with one block of N * N * 1 threads
- int numBlocks = 1;
- dim3 threadsPerBlock(N, N);
- MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C);
- ...
- }
- // Kernel definition
- __global__ void MatAdd(float A[N][N], float B[N][N], float C[N][N]) {
- int i = blockIdx.x * blockDim.x + threadIdx.x;
- int j = blockIdx.y * blockDim.y + threadIdx.y;
- if (i < N && j < N)
- C[i][j] = A[i][j] + B[i][j];
- }
- int main() {
- ...
- // Kernel invocation
- dim3 threadsPerBlock(16, 16);
- dim3 numBlocks(N / threadsPerBlock.x, N / threadsPerBlock.y);
- MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C);
- ...
- }
3.3 內存層次(Memory Hierarchy)
在GPU上CUDA線程可以訪問到的存儲資源有很多,每個CUDA線程擁有獨立的本地內存(local Memory);每一個線程塊(block)都有其獨立的共享內存(shared memory),共享內存對於線程塊中的每個線程都是可見的,它與線程塊具有相同的生存時間;同時,還有一片稱爲全局內存(global memory)的區域對所有的CUDA線程都是可訪問的。
除了上述三種存儲資源以外,CUDA還提供了兩種只讀內存空間:常量內存(constant memory)和紋理內存(texture memory),同全局內存類似,所有的CUDA線程都可以訪問它們。對於一些特殊格式的數據,紋理內存提供多種尋址模式以及數據過濾方法來操作內存。這兩類存儲資源主要用於一些特殊的內存使用場合。
一個程序啓動內核函數以後,全局內存、常量內存以及紋理內存將會一直存在直到該程序結束。下面是CUDA的內存層次圖:
3.4 異構編程(Heterogeneous Programming)
4. CUDA C語言編程接口
4.1 NVCC編譯器
4.2 兼容性
- 計算能力1.0的設備運行該程序將會裝載1.0版本的二進制代碼
- 計算能力1.1、1.2或者1.3的設備運行該程序將會裝載1.1版本的二進制代碼
- 計算能力2.0或者更高的設備運行該程序將會裝載1.1版本的PTX代碼進而對其進行JIT編譯得到相應設備的二進制代碼
4.3 CUDA C Runtime
4.3.1 初始化
4.3.2 設備內存
正如前面異構計算章節所講,CUDA編程模型假定系統是由主機和設備構成的,它們分別具有自己獨立的內存空間。Runtime負責設備內存的分配,回收,拷貝以及在主機和設備間傳輸數據的工作。
設備內存可以有兩種分配方式:線性內存或者CUDA數組
CUDA數組是一塊不透明的內存空間,它主要被優化用於紋理存取。
線性內存空間與平時我們訪問的內存類似,對於計算能力1.x的設備來說,它存在於一個32位的地址空間。對於更高計算能力的設備而言,它存在於一個40位的地址空間中。因此,單獨分配的實體可以使用指針來相互應用。
我們通常使用cudaMalloc()函數分配線性內存空間,使用cudaFree()函數釋放線性內存空間,使用cudaMemcpy()函數在主機和設備之間傳輸數據。下面是CUDA Vector Add代碼示例的一些片段:
- // Device code
- __global__ void VecAdd(float *A, float *B, float *C, int N) {
- int i = blockDim.x * blockIdx.x + threadIdx.x;
- if (i < N)
- C[i] = A[i] + B[i];
- }
- // Host code
- int main() {
- int N = ...;
- size_t size = N * sizeof(float);
- // Allocate input vectors h_A and h_B in host memory
- float *h_A = (float*)malloc(size);
- float *h_B = (float*)malloc(size);
- // Initialize input vectors
- ...
- // Allocate vectors in device memory
- float *d_A, *d_B, *d_C;
- cudaMalloc(&d_A, size);
- cudaMalloc(&d_B, size);
- cudaMalloc(&d_C, size);
- // Copy vectors from host memory to device memory
- cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);
- cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);
- // Invoke kernel
- int threadsPerBlock = 256;
- int blocksPerGrid = (N +threadsPerBlock - 1) / threadsPerBlock;
- VecAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);
- // Copy result from device memory to host Memory
- cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);
- // Free device memory
- cudaFree(d_A);
- cudaFree(d_B);
- cudaFree(d_C);
- // Free host memory
- ...
- }
片段展示了設備內存的分配,傳輸以及回收過程。
除了上面展示的方法,我們還可以使用cudaMallocPitch()和cudaMalloc3D()函數來分配線性內存。這些函數能夠確保分配的內存滿足設備內存訪問的對齊要求,對於行地址的訪問以及多維數組間的數據傳輸提供高性能保證,因此非常適合對於二維和三維數組內存空間的分配。下面的代碼片段展示了分配和使用尺寸爲width x height的二維數組的技術:
- // Host code
- int width = 64, height = 64;
- float *devPtr;
- size_t pitch;
- cudaMallocPitch(&devPtr, &pitch, width * sizeof(float), height);
- MyKernel<<<100, 512>>>(devPtr, pitch, width, height);
- // Device code
- __global__ void MyKernel(float* devPtr, size_t pitch, int width, int height) {
- for (int r = 0; r < height; ++r) {
- float* row = (float*)((char*)devPtr + r * pitch);
- for (int c = 0; c < width; ++c) {
- float element = row[c];
- }
- }
- }
下面的代碼片段展示了一個尺寸爲width x height x depth的三維數組的分配和使用方法:
- // Host code
- int width = 64, height = 64, depth = 64;
- cudaExtent extent = make_cudaExtent(width * sizeof(float), height, depth);
- cudaPitchedPtr devPitchedPtr;
- cudaMalloc3D(&devPitchedPtr, extent);
- MyKernel<<<100, 512>>>(devPitchedPtr, width, height, depth);
- // Device code
- __global__ void MyKernel(cudaPitchedPtr devPitchedPtr, int width, int height, int depth) {
- char* devPtr = devPitchedPtr.ptr;
- size_t pitch = devPitchedPtr.pitch;
- size_t slicePitch = pitch * height;
- for (int z = 0; z < depth; ++z) {
- char* slice = devPtr + z * slicePitch;
- for (int y = 0; y < height; ++y) {
- float* row = (float*)(slice + y * pitch);
- for (int x = 0; x < width; ++x)
- float element = row[x];
- }
- }
- }
下面的代碼示例展示了多種使用Runtime API訪問全局變量的技術:
- __constant__ float constData[256];
- float data[256];
- cudaMemcpyToSymbol(constData, data, sizeof(data));
- cudaMemcpyFromSymbol(data, constData, sizeof(data));
- __device__ float devData;
- float value = 3.14f;
- cudaMemcpyToSymbol(devData, &value, sizeof(float));
- __device__ float* devPointer;
- float* ptr;
- cudaMalloc(&ptr, 256 * sizeof(float));
- cudaMemcpyToSymbol(devPointer, &ptr, sizeof(ptr));
使用cudaGetSymbolAddress()函數可以獲得被聲明存儲在全局內存中的變量地址。爲了獲得分配內存的大小,可以使用cudaGetSymbolSize()函數。
4.3 CUDA C Runtime
4.3.3 共享內存(Shared Memory)
- // Matrices are stored in row-major order:
- // M(row, col) = *(M.elements + row * M.width + col)
- typedef struct {
- int width;
- int height;
- float *elements;
- } Matrix;
- // Thread block size
- #define BLOCK_SIZE 16
- // Forward declaration of the matrix multiplication kernel
- __global__ void MatMulKernel(const Matrix, const Matrix, Matrix);
- // Matrix multiplication - Host code
- // Matrix dimensions are assumed to be multiples of BLOCK_SIZE
- void MatMul(const Matrix A, const Matrix B, Matrix C) {
- // Load A and B to device memory
- Matrix d_A;
- d_A.width = A.width; d_A.height = A.height;
- size_t size = A.width * A.height * sizeof(float);
- cudaMalloc(&d_A.elements, size);
- cudaMemcpy(d_A.elements, A.elements, size, cudaMemcpyHostToDevice);
- Matrix d_B;
- d_B.width = B.width; d_B.height = B.height;
- size = B.width * B.height * sizeof(float);
- cudaMalloc(&d_B.elements, size);
- cudaMemcpy(d_B.elements, B.elements, size, cudaMemcpyHostToDevice);
- // Allocate C in device memory
- Matrix d_C;
- d_C.width = C.width; d_C.height = C.height;
- size = C.width * C.height * sizeof(float);
- cudaMalloc(&d_C.elements, size);
- // Invoke kernel
- dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
- dim3 dimGrid(B.width / dimBlock.x, A.height / dimBlock.y);
- MatMulKernel<<<dimGrid, dimBlock>>>(d_A, d_B, d_C);
- // Read C from device memory
- cudaMemcpy(C.elements, d_c.elements, size, cudaMemcpyDeviceToHost);
- // Free device memory
- cudaFree(d_A.elements);
- cudaFree(d_B.elements);
- cudaFree(d_C.elements);
- }
- // Matrix multiplication kernel called by MatMul()
- __global__ void MatMulKernel(Matrix A, Matrix B, Matrix C) {
- // Each thread computes one element of C
- // by accumulating results into Cvalue
- float Cvalue = 0;
- int row = blockIdx.y * blockDim.y + threadIdx.y;
- int col = blockIdx.x * blockDim.x + threadIdx.xl
- for (int e = 0; e < A.width; ++e)
- Cvalue += A.elements[row * A.width + e] * B.elements[e * B.width + col];
- C.elements[row * C.width + col] = Cvalue;
- }
- // Matrices are stored in row-major order;
- // M(row, col) = *(M.elements + row * M.stride + col)
- typedef struct {
- int width;
- int height;
- int stride;
- float* elements;
- } Matrix;
- // Get a matrix element
- __device__ float GetElement(const Matrix A, int row, int col) {
- return A.elements[row * A.stride + col];
- }
- // Set a matrix element
- __device__ void SetElement(Matrix A, int row, int col, float value) {
- A.elements[row * A.stride + col] = value;
- }
- // Get the BLOCK_SIZExBLOCK_SIZE sub-matrix Asub of A that is
- // located col sub-matrices to the right and row sub-matrices down
- // from the upper-left corner of A
- __device__ Matrix GetSubMatrix(Matrix A, int row, int col) {
- Matrix Asub;
- Asub.width = BLOCK_SIZE;
- Asub.height = BLOCK_SIZE;
- Asub.stride = A.stride;
- Asub.elements = &A.elements[A.stride * BLOCK_SIZE * row + BLOCK_SIZE * col];
- return Asub;
- }
- // Thread block size
- #define BLOCK_SIZE 16
- // Forward declaration of the matrix multiplication kernel
- __global__ void MatMulKernel(const Matrix, const Matrix, Matrix);
- // Matrix multiplication - Host code
- // Matrix dimensions are assumed to be multiples of BLOCK_SIZE
- void MatMul(const Matrix A, const Matrix B, Matrix C) {
- // Load A and B to device memory
- Matrix d_A;
- d_A.width = d_A.stride = A.width;
- d_A.height = A.height;
- size_t size = A.width * A.height * sizeof(float);
- cudaMalloc(&d_A.elements, size);
- cudaMemcpy(d_A.elements, A.elements, size, cudaMemcpyHostToDevice);
- Matrix d_B;
- d_B.width = d_B.stride = B.width;
- d_B.height = B.height;
- size = B.width * B.height * sizeof(float);
- cudaMalloc(&d_B.elements, size);
- cudaMemcpy(d_B.elements, B.elements, size, cudaMemcpyHostToDevice);
- // Allocate C in device memory
- Matrix d_C;
- d_C.width = d_C.stride = C.width;
- d_C.height = C.height;
- size = C.width * C.height * sizeof(float);
- cudaMalloc(&d_C.elements, size);
- // Invoke kernel
- dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
- dim3 dimGrid(B.width / dimBlock.x, A.height / dimBlock.y);
- MatMulKernel<<<dimGrid, dimBlock>>>(d_A, d_B, d_C);
- // Read C from device memory
- cudaMemcpy(C.elements, d_C.elements, size, cudaMemcpyDeviceToHost);
- // Free device memory
- cudaFree(d_A.elements);
- cudaFree(d_B.elements);
- cudaFree(d_C.elements);
- }
- // Matrix multiplication kernel called by MatMul()
- __global__ void MatMulKernel(Matrix A, Matrix B, Matrix C) {
- // Block row and column
- int blockRow = blockIdx.y;
- int blockCol = blockIdx.x;
- // Each thread block computes one sub-matrix Csub of C
- Matrix Csub = GetSubMatrix(C, blockRow, blockCol);
- // Each thread computes one element of Csub
- // by accumulating results into Cvalue
- float Cvalue = 0;
- // Thread row and column within Csub
- int row = threadIdx.y;
- int col = threadIdx.x;
- // Look over all the sub-matrices of A and B that are required to compute Csub
- // Multiply each pair of sub-matrices together and accumulate the results
- for (int m = 0; m < (A.width / BLOCK_SIZE); ++m) {
- // Get sub-matrix Asub of A
- Matrix Asub = GetSubMatrix(A, blockRow, m);
- // Get sub-matrix Bsub of B
- Matrix Bsub = GetSubMatrix(B, m, blockCol);
- // Shared memory used to store Asub and Bsub respectively
- __shared__ float As[BLOCK_SIZE][BLOCK_SIZE];
- __shared__ float Bs[BLOCK_SIZE][BLOCK_SIZE];
- // Load Asub and Bsub from device memory to shared memory
- // Each thread loads one element of each sub-matrix
- As[row][col] = GetElement(Asub, row, col);
- Bs[row][col] = GetElement(Bsub, row, col);
- // Synchronize to make sure the sub-matrices are loaded
- // before starting the computation
- __syncthreads();
- // Multiply Asub and Bsub together
- for (int e = 0; e < BLOCK_SIZE; ++e)
- Cvalue += As[row][e] * Bs[e][col];
- // Synchronize to make sure that the preceding computation is done before
- // loading two new sub-matrices of A and B in the next iteration
- __syncthreads();
- }
- // Write Csub to device memory
- // Each thread writes one element
- SetElement(Csub, row, col, Cvalue);
- }
異步並行執行
主機和設備間並行執行
將內核啓動與數據傳輸重疊起來
對於一些計算能力等於或高於1.1的設備,它們可以將內核啓動任務和鎖頁內存到設備內存的數據傳輸任務並行執行。應用程序可以檢查設備屬性中的asyncEngineCount項來確定設備是否支持這一功能。當該項值大於0時代表設備支持這一層次的並行。對於計算能力1.x的設備,該功能不支持通過cudaMallocPitch()函數分配的CUDA數組或2D數組。
並行內核執行
一些計算能力2.x或更高的設備可以同時並行執行多個內核函數。應用程序可以檢查設備屬性中的concurrentKernels項來確定設備是否支持這一功能,值爲1代表支持。運算能力3.5的設備在同一時刻能夠並行執行的最大內核函數數量爲32,運算能力小於3.5的硬件則最多支持同時啓動16個內核函數的執行。同時需要注意的是,在一個CUDA上下文中的內核函數不能與另一個CUDA上下文中的內核函數同時執行。使用很多紋理內存或者大量本地內存的內核函數也很可能無法與其它內核函數並行執行。
並行數據傳輸
一些計算能力爲2.x或更高的設備可以將鎖頁內存到設備內存的數據傳輸和設備內存到鎖頁內存的數據傳輸並行執行。應用程序可檢查設備屬性中的asyncEngineCount項來確定這一功能的支持程度,等於2時表示支持。
流(Streams)
應用程序通過流來管理並行。一個流是一個順次執行的命令序列。不同的流之間並行執行,沒有固定的執行順序。
1、流的創建與銷燬
定義一個流的過程通常包括:創建一個流對象,然後指定它爲內核啓動或者主機設備間數據傳輸的流參數。下面的一段代碼創建了兩個流並且在鎖頁內存中分配了一塊float類型的數組hostPtr:
- cudaStream_t stream[2];
- for (int i = 0; i < 2; ++i)
- cudaStreamCreate(&stream[i]);
- float *hostPtr;
- cudaMallocHost(&hostPtr, 2 * size);
- for (int i = 0; i < 2; ++i) {
- cudaMemcpyAsync(inputDevPtr + i * size, hostPtr + i * size, size, cudaMemcpyHostToDevice, stream[i]);
- MyKernel<<<100, 512, 0, stream[i]>>>(outputDevPtr + i * size, inputDevPtr + i * size, size);
- cudaMemcpyAsync(hostPtr + i * size, outputDevPtr + i * size, size, cudaMemcpyDeviceToHost, stream[i]);
- }
這部分代碼中有一點需要注意:爲了並行化數據拷貝和內核執行,主機端內存必須分配爲鎖頁(page-locked)內存。
要銷燬一個流需要調用函數cudaStreamDestroy()
- for (int i = 0; i < 2; ++i)
- cudaStreamDestroy(stream[i]);
2、默認流(Default stream)
在內核啓動或者數據拷貝過程中如果不指定流,或者設置流參數爲0,則相應的指令將會運行在默認流上,它們也因此而順次執行。
3、明同步(Explicit Synchronization)
在CUDA中有很多種方式可以用來同步流的執行:
cudaDeviceSynchronize()函數使得主機端線程阻塞直到所有流中的指令執行完成。
cudaStreamSynchronize()函數將一個流對象作爲輸入參數,用以等待指定流中的所有指令執行完成。
cudaStreamWaitEvent()函數將一個流對象和一個事件作爲輸入參數,它將延遲該函數調用後在指定流中所有新加入的命令的執行直到指定的事件完成爲止。流參數可以爲0,在該情形下所有流中的任何新加入的指令都必須等待指定事件的發生,然後纔可以執行。
cudaStreamQuery()函數爲應用程序提供了一個檢測指定流中之前指令是否執行完成的方法。
爲了避免同步帶來的性能下降,所有上述同步函數最好用於計時目的或者分離錯誤的內核執行或數據拷貝。
4、暗同步(Implicit Synchronization)
如果任何一個流中正在執行以下操作,那麼其它流是不能與其並行運行的:
a. 分配鎖頁內存空間
b. 設備內存分配
c. 設備內存置位
d. 同一設備兩個不同地址間正在進行數據拷貝
e. 默認流中有指令正在執行
f. L1/shared內存配置的轉換
對於支持並行內核執行並且計算能力3.0或以下的設備來說,任何一個需要檢查依賴性以確定流內核啓動是否完成的操作:
a. 只有當前CUDA上下文中所有流中所有之前的內核啓動之後才能夠啓動執行。
b. 將會阻塞所有當前CUDA上下文中的任意流中新加入的內核調用直到內核檢查完成。
需要進行依賴性檢查的操作包括執行檢查的內核啓動所在流中的其它指令以及任何在該流上對cudaStreamQuery()函數的調用。因此,應用程序可以遵照以下指導原則來提升潛在並行性:
(1)所有非依賴操作應當比依賴性操作提前進行
(2)任何類型的同步越遲越好
5、重疊行爲(Overlapping Behavior)
兩個流間重疊行爲的數量取決於以下幾個因素:
(1)每個流中命令發出的次序
(2)設備是否支持內核啓動與數據傳輸並行
(3)設備是否支持多內核並行啓動
(4)設備是否支持多數據傳輸並行
例如,在不支持並行數據傳輸的設備上,“流的創建與銷燬”章節中代碼樣例中的操作就不能並行,因爲在stream[0]中發出設備端到主機端的數據拷貝後,stream[1]又發出主機端到設備端的數據拷貝命令,這兩個命令式不能重疊執行的。假設設備支持數據傳輸與內核啓動並行,那麼如下代碼:
- for (int i = 0; i < 2; ++i)
- cudaMemcpyAsync(inputDevPtr + i * size, hostPtr + i * size, size, cudaMemcpyHostToDevice, stream[i]);
- for (int i = 0; i < 2; ++i)
- MyKernel<<<100, 512, 0, stream[i]>>>(outputDevPtr + i * size, inputDevPtr + i * size, size);
- for (int i = 0; i < 2; ++i)
- cudaMemcpyAsync(hostPtr + i * size, outputDevPtr + i * size, size, cudaMemcpyDeviceToHost, stream[i]);
6、回調函數
CUDA運行時提供了cudaStreamAddCallback()函數以在流中的任意位置插入一個回調函數點。回調函數運行於主機端,如果在默認流中插入回調函數,那麼它將等待所有其它流中的命令執行完成之後纔會開始執行。
下面的代碼展示了回調函數技術的應用:
- void CUDART_CB MyCallback(cudaStream_t stream, cudaError_t status, void **data) {
- printf("Inside callback %d\n", (int)data);
- }
- ...
- for (int i = 0; i < 2; ++i) {
- cudaMemcpyAsync(devPtrIn[i], hostPtr[i], size, cudaMemcpyHostToDevice, stream[i]);
- MyKernel<<<100, 512, 0, stream[i]>>>(devPtrOut[i], devPtrIn[i], size);
- cudaMemcpyAsync(hostPtr[i], devPtrOut[i], size, cudaMemcpyDeviceToHost, stream[i]);
- cudaStreamAddCallback(stream[i], MyCallback, (void**)i, 0);
- }
上面的代碼定義了兩個流的操作,每個流都完成一次主機端到設備端的數據拷貝,一次內核啓動,一次設備端到主機端的數據拷貝,最後增加了一個加入回調函數的操作。當設備端代碼運行到回調函數點的時候,設備將控制權交還給主機端,主機端運行完成以後再將控制權返還給設備端,然後設備端繼續運行。
值得注意的是,在一個回調函數中,一定不能進行任何CUDA API的調用,直接的或者間接的都是不可以的。
http://blog.csdn.net/csgxy123/article/details/9704461