CUDA與OpenGL交互開發

最近在學習OpenGL，過程中需要使用CUDA進行並行計算。因此，需要解決OpenGL與CUDA的交互問題。學習記錄如下：

Step1. 共享數據區

想到交互，不難想到通信，數據共享等詞語。這裏使用的是共享數據的方式來完成OpenGL與CUDA的交互。而OpenGL與CUDA都有着自己獨特的類型定義。因此，對於共享的數據區，我們需要給它起兩個不同的名字，分別爲OpenGL以及CUDA服務

OpenGL：

[cpp]view
plaincopy

GLuint bufferObj; 

[cpp]view
plaincopy

GLuint bufferObj;  

CUDA：

[java]view
plaincopy

cudaGraphicsResource *resource; 

[java]view
plaincopy

cudaGraphicsResource *resource;  

Step2.將顯卡設備與OpenGL關聯（已廢除）

注：在CUDA5.0版本以及以後的版本，不需要此操作。參考NVIDIA官方文檔如下：

cudaError_t cudaGLSetGLDevice ( int device )

DeprecatedThis function is deprecated as of CUDA 5.0.This function is deprecated and should no longer be used. It is no longer necessary to associate a CUDA device with an OpenGL context in order to achieve maximum interoperability performance.

具體的設置代碼爲：

[cpp]view
plaincopy

cudaDeviceProp prop; 

int dev; 

memset(&prop, 0, sizeof(cudaDeviceProp)); 

prop.major = 1; 

prop.minor = 0; 

cudaChooseDevice(&dev, &prop); 

cudaGLSetGLDevice(dev);

[cpp]view
plaincopy

cudaDeviceProp prop;  

int dev;  

memset(&prop, 0, sizeof(cudaDeviceProp));  

prop.major = 1;  

prop.minor = 0;  

cudaChooseDevice(&dev, &prop);  

cudaGLSetGLDevice(dev);

Step3. 初始化OpenGL

[cpp]view
plaincopy

#define DIM 512 

glutInit(argc, argv); 

glutInitDisplayMode(GLUT_DOUBLE | GLUT_RGBA); 

glutInitWindowSize(DIM, DIM); 

glutCreateWindow("bitmap"); 

glewInit();

[cpp]view
plaincopy

#define DIM 512  

glutInit(argc, argv);  

glutInitDisplayMode(GLUT_DOUBLE | GLUT_RGBA);  

glutInitWindowSize(DIM, DIM);  

glutCreateWindow("bitmap");  

glewInit();

這裏需要注意的是：

需要使用opengl擴展庫：glew32.dll。若您沒有glew32擴展庫，點此下載 (其安裝方式與glut，freeglut等相同)
（重要）需要在opengl初始化代碼最後加上：glewInit()，否則會在後面執行到glGenBuffers報運行時錯誤：0xC0000005: Access violation.
使用glew庫需要： #include "gl/glew.h"，且其聲明的位置儘量放在代碼最頂端，否則編譯報錯。
具體示例代碼，點此下載

—————————————————— 華麗的分割線 ————————————————————

到此爲止，基本的準備工作就完成了。下面開始實際的工作。

共享數據緩衝區是在CUDA C核函數和 OpenGL渲染操作之間實現互操作的關鍵部分。爲了實現兩者之間的數據傳遞，我們首先需要創建一個緩衝區。

Step4. 使用OpenGL API創建數據緩衝區

[cpp]view
plaincopy

const GLubyte*
a; 

a = glGetString(GL_EXTENSIONS); 

glGenBuffers(1, &bufferObj);//生成一個緩衝區句柄 

glBindBuffer(GL_PIXEL_UNPACK_BUFFER_ARB, bufferObj);//將句柄綁定到像素緩衝區（即緩衝區存放的數據類型爲：PBO） 

glBufferData(GL_PIXEL_UNPACK_BUFFER_ARB, DIM*DIM*4, NULL, GL_DYNAMIC_DRAW_ARB);//申請內存空間並設置相關屬性以及初始值

[cpp]view
plaincopy

const GLubyte* a;  

a = glGetString(GL_EXTENSIONS);  

glGenBuffers(1, &bufferObj);//生成一個緩衝區句柄  

glBindBuffer(GL_PIXEL_UNPACK_BUFFER_ARB, bufferObj);//將句柄綁定到像素緩衝區（即緩衝區存放的數據類型爲：PBO）  

glBufferData(GL_PIXEL_UNPACK_BUFFER_ARB, DIM*DIM*4, NULL, GL_DYNAMIC_DRAW_ARB);//申請內存空間並設置相關屬性以及初始值

這裏，我們使用如下枚舉值：

[cpp]view
plaincopy

GL_PIXEL_UNPACK_BUFFER_ARB 

[cpp]view
plaincopy

GL_PIXEL_UNPACK_BUFFER_ARB  

表示指定緩衝區存儲的內容是一個Pixel Buffer Object（PBO）

[cpp]view
plaincopy

GL_DYNAMIC_DRAW_ARB 

[cpp]view
plaincopy

GL_DYNAMIC_DRAW_ARB  

表示應用程序將會對緩衝區進行修改

這時，可能你會疑問，前兩句代碼是幹嘛的？

因爲，GL_PIXEL_UNPACK_BUFFER_ARB對glew擴展庫的版本有要求，所以最好檢查一下當前環境是否支持GL_PIXEL_UNPACK_BUFFER_ARB枚舉值。

可以看到，我的環境是支持GL_ARB_pixel_buffer_object的，如果您的環境不支持該枚舉值，可能需要您更新glew擴展庫版本。

Step5. 把緩衝區分享給CUDA

由於我們的目的是要使用CUDA的並行計算能力，所以CUDA必須要有權利訪問共享數據緩衝區。

要實現該操作，需要將緩衝區句柄註冊爲一個圖形資源，即Graphics Resource；然後“分享給CUDA”

[cpp]view
plaincopy

cudaGraphicsGLRegisterBuffer(&resource, bufferObj, cudaGraphicsMapFlagsNone) 

[cpp]view
plaincopy

cudaGraphicsGLRegisterBuffer(&resource, bufferObj, cudaGraphicsMapFlagsNone)  

代碼中的resource即之前定義的：

[java]view
plaincopy

cudaGraphicsResource *resource; 

[java]view
plaincopy

cudaGraphicsResource *resource;  

方法cudaGraphicsGLRegisterBuffer的參數3表示緩衝區屬性，它有以下三種可選值：

1. cudaGraphicsRegisterFlagsNone: Specifies no hints about how this resource will be used. It is therefore assumed that this resource will be read from and written to by CUDA. This is the default value.

2. cudaGraphicsRegisterFlagsReadOnly: Specifies that CUDA will not write to this resource.（只讀）

3. cudaGraphicsRegisterFlagsWriteDiscard: Specifies that CUDA will not read from this resource and will write over the entire contents of the resource, so none of the data previously stored in the resource will be preserved.（只寫）

Step6. 讓CUDA映射共享資源，並獲取相對於顯卡而言的設備指針

[cpp]view
plaincopy

uchar4* devPtr; 

size_t size; 

cudaGraphicsMapResources(1, &resource, NULL); 

cudaGraphicsResourceGetMappedPointer((void**)&devPtr,
&size, resource); 

[cpp]view
plaincopy

uchar4* devPtr;  

size_t size;  

cudaGraphicsMapResources(1, &resource, NULL);  

cudaGraphicsResourceGetMappedPointer((void**)&devPtr, &size, resource);  

CUDA官方文檔中這樣描述：CUDA在訪問圖形接口（比如openGL）的共享資源之前，需要首先對其進行映射(map)，然後纔可以訪問共享數據區，CUDA對資源的訪問過程中，OpenGL不能對該數據區其進行任何操作，直到CUDA對數據區解除映射（unmap）爲止。

Nvidia的原文描述如下：

Map graphics resources for access by CUDA. Maps the count graphics resources in resources for access by CUDA.

The resources in resources may be accessed by CUDA until they are unmapped. The graphics API from whichresources were registered should not access any resources while they are mapped by CUDA. If an application does so, the results are undefined.

映射完成後，我們需要獲得緩衝區對於顯卡（設備）而言的指針，即代碼中的 devPtr。沒有設備指針，我們怎麼進行並行計算呢。

Step7. 執行CUDA核函數

[cpp]view
plaincopy

dim3 grids(DIM/16, DIM/16); 

dim3 threads(16, 16); 

kernel_opengl<<<grids, threads>>>(devPtr);

[cpp]view
plaincopy

dim3 grids(DIM/16, DIM/16);  

dim3 threads(16, 16);  

kernel_opengl<<<grids, threads>>>(devPtr);

一個簡單的核函數kernel_opengl的定義如下：

[cpp]view
plaincopy

__global__ void kernel_opengl(uchar4*
ptr){ 

    int x
= threadIdx.x + blockIdx.x * blockDim.x; 

    int y
= threadIdx.y + blockIdx.y * blockDim.y; 

    int offset
= x + y * blockDim.x * gridDim.x; 

    float fx
= x/(float)DIM - 0.5f; 

    float fy
= y/(float)DIM - 0.5f; 

    unsigned char green
= 128 + 127 * sin(abs(fx*100) - abs(fy*100)); 

    ptr[offset].x = 0; 

    ptr[offset].y = green; 

    ptr[offset].z = 0; 

    ptr[offset].w = 255; 

}

[cpp]view
plaincopy

__global__ void kernel_opengl(uchar4* ptr){  

    int x = threadIdx.x + blockIdx.x * blockDim.x;  

    int y = threadIdx.y + blockIdx.y * blockDim.y;  

    int offset = x + y * blockDim.x * gridDim.x;  

    float fx = x/(float)DIM - 0.5f;  

    float fy = y/(float)DIM - 0.5f;  

    unsigned char green = 128 + 127 * sin(abs(fx*100) - abs(fy*100));  

    ptr[offset].x = 0;  

    ptr[offset].y = green;  

    ptr[offset].z = 0;  

    ptr[offset].w = 255;  

}

此時，執行完核函數，CUDA的使命也就完成了。它的產出就是：緩衝區的數據已經被更新了~~

Step8. 解除CUDA對共享緩衝區的映射

[cpp]view
plaincopy

cudaGraphicsUnmapResources(1, &resource, NULL) 

[cpp]view
plaincopy

cudaGraphicsUnmapResources(1, &resource, NULL)  

如果不解除映射，那麼OpenGL將沒有權限訪問共享數據區，因此也就沒有辦法完成圖像的渲染顯示了。

Step9. 調用OpenGL API顯示

[cpp]view
plaincopy

glutKeyboardFunc(key_func); 

glutDisplayFunc(draw_func); 

glutMainLoop(); 

[cpp]view
plaincopy

glutKeyboardFunc(key_func);  

glutDisplayFunc(draw_func);  

glutMainLoop();  

其中，顯示回調函數爲：

[cpp]view
plaincopy

static void draw_func(void){ 

        glDrawPixels(DIM, DIM, GL_RGBA, GL_UNSIGNED_BYTE, 0); 

        glutSwapBuffers(); 

} 

[cpp]view
plaincopy

static void draw_func(void){  

        glDrawPixels(DIM, DIM, GL_RGBA, GL_UNSIGNED_BYTE, 0);  

        glutSwapBuffers();  

}  

乍一看，可能感覺會比較奇怪。因爲draw_func裏面沒有使用到緩衝區句柄bufferObj，那麼數據如何會顯示呢？

因爲，之前的代碼：

[cpp]view
plaincopy

glBindBuffer(GL_PIXEL_UNPACK_BUFFER_ARB, bufferObj); 

[cpp]view
plaincopy

glBindBuffer(GL_PIXEL_UNPACK_BUFFER_ARB, bufferObj);  

該調用將共享緩衝區指定爲一個像素源，OpenGL驅動程序隨後會在所有對glDrawPixels()的調用中使用這個像素源。這也就說明了我們爲什麼使用glDrawPixels來繪製圖形了。

通過查看glDrawPixels的文檔：

[cpp]view
plaincopy

void glDrawPixels( 

  GLsizei width, 

  GLsizei height, 

  GLenum format, 

  GLenum type, 

  const GLvoid
*pixels 

);

[cpp]view
plaincopy

void glDrawPixels(  

  GLsizei width,  

  GLsizei height,  

  GLenum format,  

  GLenum type,  

  const GLvoid *pixels  

);

不難發現其最後一個參數爲一個緩衝區指針。如果沒有任何緩衝區被指定爲GL_PIXEL_UNPACK_BUFFER_ARB源，那麼OpenGL將從這個參數指定的緩衝區進行數據複製並顯示。但在本例中，我們已經將共享數據緩衝區指定爲GL_PIXEL_UNPACK_BUFFER_ARB。此時，該參數含義將變爲：已綁定緩衝區內的偏移量，由於我們要繪製整個緩衝區，因此這便宜量就是0.

—————————————————————— 華麗的分割線 ————————————————

最終，運行程序，得到指定的結果。

轉自：http://blog.csdn.net/lingling_y/article/details/8915163

CUDA與OpenGL交互開發

lightdb hash index的性能和限制

CUDA: 程序優化的15個策略

AMD OpenCL 大學課程

取模、乘法和除法運算在CPU和GPU上的效率

C語言實現FIFO算法與LRU算法

理解虛基類、虛函數與純虛函數的概念

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結