OpenCL優化-解除data dependence

  1. 刪除loop-carrried依賴
  1. __kernel void unoptimized(__global int * restrict A,  
  2.                           __global int * restrict B,  
  3.                           __global int * restrict result)  
  4. {  
  5.     int sum = 0;  
  6.   
  7.     for(unsigned i=0;i<N;i++){  
  8.         for(unsigned j=0;j<N;j++){  
  9.             sum +=A[i*N+j];  
  10.         }  
  11.         sum += B[i];  
  12.     }  
  13.     *result = sum;  
  14. }  

使用局部變量能夠解除依賴。

  1. __kernel void optimized(__global int * restrict A,  
  2.                           __global int * restrict B,  
  3.                           __global int * restrict result)  
  4. {  
  5.     int sum = 0;  
  6.   
  7.     for(unsigned i=0;i<N;i++){  
  8.         int sum2 = 0;  
  9.         for(unsigned j=0;j<N;j++){  
  10.             sum2 +=A[i*N+j];  
  11.         }  
  12.         sum += sum2;  
  13.         sum += B[i];  
  14.     }  
  15.   
  16.     *result = sum;  
  17. }  

6.2

 

  1. #define N 128  
  2.   
  3. __kernel void unoptimized(__global float * restrict A,  
  4.                           __global float * restrict result)  
  5. {  
  6.     float mul = 1.0f;  
  7.       
  8.     for(unsigned i=0;i<N;i++)  
  9.         mul *= A[i];  
  10.   
  11.     *result = mul;  
  12. }  

原因在於在未進行優化之前float類型的乘法的II爲3,進行優化之後II爲1.思想是不使用單個變量來存儲乘法結果,而是對變量的M個副本進行操作。相當於將乘法得到的數據存儲到長度爲M的數組中,並對數組裏的數據進行移位賦值,這樣的話長爲M的數組中就各自存儲了一部分的乘法數據,最後將這些數據進行相乘即爲最終結果。

  1. #define N 128  
  2. #define M 8  
  3.   
  4. __kernel void optimized(__global float * restrict A,  
  5.                           __global float * restrict result)  
  6. {  
  7.     float mul = 1.0f;  
  8.   
  9.     float mul_copies[M];  
  10.   
  11.     for(unsigned i = 0;i < M;i++)  
  12.         mul_copies[i] = 1.0f;  
  13.   
  14.       
  15.     for(unsigned i=0;i<N;i++){  
  16.         float cur = mul_copies[M-1] * A[i];  
  17.   
  18.         #pragma unroll  
  19.         for(unsigned j = M-1;j >0;j--){  
  20.             mul_copies[j] = mul_copies[j-1];  
  21.             mul_copies[0] = cur;  
  22.         }  
  23.     }  
  24.       
  25.     #pragma unroll  
  26.     for(unsigned i =0;i < M;i++)  
  27.         mul *= mul_copies[i];  
  28.   
  29.     *result = mul;  
  30. }  

 

 

 

對於無法刪除的循環依賴,通過將循環攜帶依賴項的數組從全局內存移動到本地內存來改進II

  1. #define N 128  
  2.   
  3. __kernel void unoptimized(__global float * restrict A)  
  4. {  
  5.     for(unsigned i =0;i< N;i++){  
  6.         A[N-i] = A[i];  
  7.     }  
  8.   
  9. }  
  10.   
  11. #define N 128  
  12.   
  13. __kernel void optimized(__global float * restrict A)  
  14. {  
  15.     float B[N];  
  16.     for(unsigned i =0;i< N;i++){  
  17.         B[i] = A[i];  
  18.     }  
  19.     for(unsigned i =0;i< N;i++){  
  20.         B[N-i] = B[i];  
  21.     }  
  22.     for(unsigned i =0;i< N;i++){  
  23.         A[i] = B[i];  
  24.     }  
  25.   
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章