CUDA,day-2,共享內存-排序算法

原創

2020-02-22 08:26

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <iostream>
#include <stdio.h>
using namespace std;

#define u32 unsigned int

__device__ void func1(
u32 * const sort_tmp,
const u32 num_lists,
const u32 num_elements,
const u32 tid,
u32 * const sort_tmp_0,
u32 * const sort_tmp_1);

__device__ void func2(
u32 * const sort_tmp,
const u32 num_lists,
const u32 num_elements,
const u32 tid,
u32 * const sort_tmp_0);

int main()
{
return 0;
}

__device__ void func1(
u32 * const sort_tmp,
const u32 num_lists,
const u32 num_elements,
const u32 tid,
u32 * const sort_tmp_0,
u32 * const sort_tmp_1)
{
for (u32 bit = 0; bit < 32; bit++)
{
u32 base_cnt_0 = 0;
u32 base_cnt_1 = 0;
for (u32 i = 0; i < num_elements; i += num_lists)
{
const u32 elem = sort_tmp[i + tid];
const u32 bit_mask = (1 << bit);
if ((elem&bit_mask)>0)
{
sort_tmp_1[base_cnt_1 + tid] = elem;
base_cnt_1 += num_lists;
}
else
{
sort_tmp_0[base_cnt_0 + tid] = elem;
base_cnt_0 += num_lists;
}
}

for (u32 i = 0; i < base_cnt_0; i += num_lists)
{
sort_tmp[i + tid] = sort_tmp_0[i + tid];
}

for (u32 i = 0; i < base_cnt_1; i += num_lists)
{
sort_tmp[base_cnt_0 + i + tid] = sort_tmp_1[i + tid];
}
}
}

__device__ void func2(
u32 * const sort_tmp,
const u32 num_lists,
const u32 num_elements,
const u32 tid,
u32 * const sort_tmp_0)
{
for (u32 bit = 0; bit < 32; bit++)
{
const u32 bit_mask = (1 << bit);
u32 base_cnt_0 = 0;
u32 base_cnt_1 = 0;
for (u32 i = 0; i < num_elements; i += num_lists)
{
const u32 elem = sort_tmp[i + tid];
if ((elem&bit_mask)>0)
{
sort_tmp_0[base_cnt_1 + tid] = elem;
base_cnt_1 += num_lists;
}
else
{
sort_tmp[base_cnt_0 + tid] = elem;
base_cnt_0 += num_lists;
}
}

for (u32 i = 0; i < base_cnt_0; i += num_lists)
{
sort_tmp[base_cnt_0 + i + tid] = sort_tmp_0[i + tid];
}
}
}

發佈了29 篇原創文章 · 獲贊 7 · 訪問量 2萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

GPU 硬件指標說明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

Qt/C++音視頻開發70-無感切換通道/無縫切換播放視頻/多通道流暢切換/不同視頻打開無縫切換

一、前言之前就寫過這個方案，當時做的是ffmpeg內核版本，由於ffmpeg內核解析都是代碼實現，所以無縫切換非常完美，看不到絲毫的中間切換過程，看起來就像是在一個通道畫面中。其實這種切換隻能說是取巧辦法，最佳的辦法應該是公用一個open

2024-04-18 10:40:53

大模型分佈式訓練並行技術

隨着深度學習的發展，模型規模逐漸增大，數據量和計算需求也呈爆炸式增長。在單個計算設備上完成大模型的訓練變得不切實際，因此，分佈式訓練成爲了解決這一問題的關鍵。在分佈式訓練中，數據並行是一種非常有效的策略，通過將數據和計算任務分佈到多個計算設

2024-04-10 23:29:41

引領向量數據庫技術新變革，Milvus 2.4 正式上線！

備受關注的 Milvus 2.4 正式上線！作爲向量數據庫賽道的領軍者，Zilliz 一直致力於推動向量技術的進步與創新。本次發佈中，Milvus 新增支持基於 NVIDIA 的 GPU 索引—— CUDA 加速圖形索引（CAGRA），

2024-03-25 21:26:35

愛奇藝 CTR 場景下的 GPU 推理性能優化

01 背景介紹 GPU 目前大量應用在了愛奇藝深度學習平臺上。GPU 擁有成百上千個處理核心，能夠並行的執行大量指令，非常適合用來做深度學習相關的計算。在 CV（計

2024-03-15 15:57:51

阿里雲容器服務助力萬興科技 AIGC 應用加速

2023 年堪稱是 AIGC 元年，文生圖領域誕生了 Stable Diffusion 項目，文生文領域誕生了 GPT 家族。一時間風起雲湧，國內外許多企業投身 AIGC 創新浪潮，各大雲廠商緊隨其後紛紛推出自己的大語言模型。在文生圖領域落

2023-12-28 01:18:57

Caffe框架整理

Caffe安裝 Caffe框架下載地址：https://github.com/BVLC/caffe 下載完成後解壓，進入主目錄，執行 cp Makefile.config.example Makefile.config 安裝依賴

2023-11-07 13:31:07

搭建一款性價比運行AI平臺

顯存 8G x 2 共16G顯存的 AI大模型運行平臺上配置配置價格備註 A85大板+ amd x4 760k 60 也可以h61+e3v2 或者 x99 + e5v3 或者h81+e3 v3 或者 a32

2023-10-24 13:25:36

雲原生 AI 工程化實踐之 FasterTransformer 加速 LLM 推理

01 背景 OpenAI 在 3 月 15 日發佈了備受矚目的 GPT4，它在司法考試和程序編程領域的驚人表現讓大家對大語言模型的熱情達到了頂點。人們紛紛議論我們是否已經跨入通用人工智能的時代。與此同時，基於大語言模型的應用也如雨後春筍般

2023-08-15 00:37:15

應對突發流量，如何快速爲自建 K8s 添加雲上彈性能力

以 Kubernetes 爲代表的容器技術帶來的是一種應用交付模式的變革，其正迅速成爲全世界數據中心的統一 API。爲了保證業務持續穩定、用戶訪問不中斷，高可用、高彈性等能力是應用架構設計不變的追求，多集羣架構天然具備這樣的能力。而只有在

2023-07-12 00:28:14

阿里雲 PAIx 達摩院 GraphScope 開源基於 PyTorch 的 GPU 加速分佈式 GNN 框架

導讀近期阿里雲機器學習平臺 PAI 團隊和達摩院 GraphScope 團隊聯合推出了面向 PyTorch 的 GPU 加速分佈式 GNN 框架 GraphLearn-for-PyTorch(GLT) 。GLT 利用 GPU 的強大並行

2023-06-22 00:21:41

搭建openmmlab的mmcv v1.4遇到的問題

按照文檔安裝mmcv報錯在執行python setup.py build_ext 報錯缺少THE/THE.H庫更改安裝方式改用官網https://mmdetection.readthedocs.io/zh_CN/v2.25.

2023-05-22 01:22:01

GPT大語言模型Alpaca-lora本地化部署實踐【大語言模型實踐一】 | 京東雲技術團隊

模型介紹 Alpaca模型是斯坦福大學研發的LLM（Large Language Model，大語言）開源模型，是一個在52K指令上從LLaMA 7B（Meta公司開源的7B）模型微調而來，具有70億的模型參數（模型參數越大，模型的推理能

2023-05-17 11:50:48

用於雙目重建中的GPU編程：julia-cuda

作者：京東科技李大沖一、Julia是什麼 julia是2010年開始面世的語言，作爲一個10後，Julia必然有前輩們沒有的特點。Julia被期望塑造成原生的有C++的運行速度、python的易交互性以及膠水性。最重要的是，julia

2023-02-27 11:36:25

小熊飛槳練習冊-01手寫數字識別

小熊飛槳練習冊-01手寫數字識別簡介小熊飛槳練習冊-01手寫數字識別，本項目開發和測試均在 Ubuntu 20.04 系統下進行。項目最新代碼查看主頁：小熊飛槳練習冊百度飛槳 AI Studio 主頁：小熊飛槳練習冊-01手寫數字識

2022-04-30 10:53:28

24小時熱門文章

最新文章

最新評論文章