《cuda並行程序設計》勘誤（2）

原創

2018-08-23 07:35

注：本人代碼是對長度爲1024的數組排序； block數量爲1，threads數量爲256

p135頁代碼應改爲：

__device__ void merge_array(u32 *src,u32 *dest,u32 num_lists,u32 num_elements,u32 tid){
	u32 reduction_shift=3;
	u32 reduction_size=8;
	u32 per_list=num_elements/num_lists;
	u32 data=src[tid*per_list];
	u32 s_idx=tid>>reduction_shift;
	u32 num_reductions=num_lists/reduction_size;
	__shared__ u32 list_index[256];
	list_index[tid]=0;
	__shared__ u32 min_val[32];
	__shared__ u32 min_tid;
	for(u32 i=0;i<num_elements;i++){
		if(tid<num_lists){
			min_val[s_idx]=0xFFFFFFFF;
			min_tid=0xFFFFFFFF;
		}
		__syncthreads();
		atomicMin(&min_val[s_idx],data);
		if(num_reductions>0){
			__syncthreads();
			if(tid<num_reductions)
				atomicMin(&min_val[0],min_val[tid]);
			__syncthreads();
		}
		if(min_val[0]==data)
			atomicMin(&min_tid,tid);
		__syncthreads();
		if(tid==min_tid){
			list_index[tid]++;
			dest[i]=data;
			if(list_index[tid]<per_list)
				data=src[tid*per_list+list_index[tid]];
			else
				data=0xFFFFFFFF;
		}
		__syncthreads();
	}
}

（在gtx970上此代碼沒有純使用atomicMin（）（即不採用規約）的算法快，餘竊以爲是因爲在新的設備上256個線程的線程競爭規模能很好的處理，而此算法用到了多次線程同步，從而拖慢了速度）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

cuda編程（7）：實現LK稀疏光流算法--完整的cuda程序

一、原理二、算法的假設（其實這樣的條件比較苛刻）三、具體實現 main.cc #include <opencv2/opencv.hpp> #include <opencv2/core/core.hpp> #include <o

2020-07-08 04:59:53

cuda編程（6）：實現knn算法

暴力實現的複雜度：實現分析：完整的代碼： Ubuntu運行命令： nvcc -o knn_cuda_with_indexes.exe knn_cuda_with_indexes.cu -lcuda -D_CRT_SECURE_

2020-07-08 04:59:52

cuda編程可以使用的庫函數

一、NPP 它是NVIDIA公司針對GPU加速圖像、視頻、信號處理庫（NPP全稱是NVIDIA Performance Primitives）。事實上，NPP和IPP（Integrated Performance Primitives）庫

2020-07-08 04:59:52

cuda編程（5）：優化理論

一、優化原則最大化算術強度；減少內存操作花費時間；合併全局內存訪問；避免線程發散；把高頻使用數據移動到共享內存；二、縱向優化的流程與步驟一般包括如下步驟： 1.1 分析分析程序的瓶頸、什麼地方需要做並行、能夠提供資源。不要

2020-07-08 04:59:52

cuda編程（4）：常見的例程

一、直方圖在Ubuntu系統的運行命令： nvcc -o histo histo.cu #include <cuda_runtime.h> #include <device_launch_parameters.h> #include

2020-07-08 04:59:52

CUDA3.1 X32 + Windows 7 32bit + Visual Studio 2005 + Visual assist安裝指南

1. 安裝CUDA Driver，toolkit，SDK a) 建議driver，toolkit，SDK的順序，默認路徑安裝 b) 如果筆記本用戶，可以選擇強行安裝3.1的驅動包（選擇對應臺式機的型號），但是會有部分遊戲隨機花屏等問題。可

2020-07-08 02:16:14

Installing CUDA Toolkit 5.0 on CentOS 6.4

1、Verify You Have a CUDA-Capable GPU lspci | grep -i nvidia 2、Verify Yo

2020-07-08 01:36:18

“no cuda-capable device is detected”問題解決方法

僅供本人蔘考！原因：安裝好cuda5.0的centOS6.4系統重啓以後，執行原來的cuda代碼，提示找不到cuda-device。經過度娘、谷哥，stack overflow一陣查找，大致知道問題出在哪裏？但是好像百分百安裝別人的提供

2020-07-08 01:36:18

基於細胞自動機Cellular Automata(CA)的區域生長

本來沒想研究這個，但Nvidia NPP的《NVIDIA 2D Image And Signal Performance Primitives》這個模塊的NPP Image Processing部分的Filtering Functions

元气少女缘结神

2020-07-08 01:22:24

Docker部署yolact中編譯DCNv2的問題

yolact部署到Docker中，需要單獨編譯DCNv2 cd external/DCNv2 python setup.py build develop 但是這個DCNv2的編譯需要依賴GPU，總是編不過。失敗1：使用python

2020-07-07 17:43:03

CUDA的庫和VC的庫有衝突

正在執行自定義生成步驟testcu.cuc:/cuda/include/common_functions.h(56): warning: dllexport/dllimport conflict with "clock"E:/Progra

2020-07-07 12:09:29

anaconda裝tensorflow真是太簡單了【保姆級安裝教程】

我覺得我這個教程真是保姆級教程了！我裝的版本tensorflow2.0.0+CUDA10.0+cuDNN7.6.5 anaconda最方便最舒服的地方就在於，我可以創建一個小房子（虛擬環境），我用到的各個版本的庫啊什麼的都裝這個

多磕盐不怕齁

2020-07-07 06:39:36

win10安裝Anaconda、Cuda、Cudnn和Pytorch(gpu版)

win10安裝Anaconda、Cuda、Cudnn和Pytorch(gpu版) 安裝Anaconda 在https://www.anaconda.com/products/individual上下載對應的Anaconda，這裏我

2020-07-06 16:32:22

pytorch下驗證是否安裝了cuda和cuDNN

進入python環境，然後輸入以下代碼測試： #判斷是否安裝了cuda import torch print(torch.cuda.is_available()) #返回True則說明已經安裝了cuda #判斷是否安裝了cuDN

2020-07-06 15:27:53

來自GPU的Hello World-基於Win10+VS2019+CUDA 11.0搭建CUDA編程環境

序 CPU和GPU 當代計算機的兩個核心，GPU計算與CPU計算的結合，使得原本的計算性能得到大幅度的提高，兩者功能的互補性使得CPU+GPU的異構並行計算得到快速發展。爲了支持使用CPU+GPU異構架構來執行應用程序，核廠設

2020-07-06 15:23:51

24小時熱門文章

最新文章

最新評論文章