cuda编程一

原創

2020-06-26 16:19

一个grid中包含多个block

一个block中包含多个thread

对于不同的组织方式都有各自不同的存储空间

每个thread---私有local memery

每个block--shared memery

对于每个设备device 共有的global memery。

CUDA中三类声明

__global__ 定义一个kernel函数（数据并行处理函数）

入口函数，cpu上调用，GPU上执行
必须返回void

__device__ GPU调用，GPU 执行

__host__ host调用，host执行

kernel 函数的调用方式

kernel函数定义 __global__ void function（A,B,C） {}

调用 function<<<num of block,num of thread>>>(A,B,C);

Grid 一维或者多维度线程块

Block 一组线程（一维，二维或者三维）

一个grid里面每个block的线程数是一样的

每个block中的线程可以：

同步synchronize
访问共享存储器shared memery
Barrier 块内所有线程等待所有线程完成了再执行下面操作

线程索引 threadIdx

块索引 blockIdx

CUDA 内存传输

GPU中分为两块内存：1,global memory,2, constant memory

cudaMalloc() 在device端分配Global memory

cudaFree(）释放存储空间

float *M;//指向的设备端的地址，而不是主机端地址
int size = w*h*sizeof(float);
cudaMalloc((void**)&M,size)
cudaFree(M)

CUDA 内存传输

cudaMemcpy()

使用范围 host to host；host to device,device to host; device to device

//cudaMemcpy(目的地址，源地址，大小，拷贝方向）
cudaMemcpy(Md,M,size,cudaMemcpyHostToDevice); //主机端 copy 设备端
cudaMemcpy(M,Md,size,cudaMemcpyDeviceToHost);//设备端 copy 主机端

CUDA 一般框架三步走

为gpu内存分配空间（gpu上的输入、输出）
启动并行kernel
将GPU上结果copy到cpu，并释放步骤1上的分配空间

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

GPU 硬件指标说明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

Qt/C++音视频开发70-无感切换通道/无缝切换播放视频/多通道流畅切换/不同视频打开无缝切换

一、前言之前就寫過這個方案，當時做的是ffmpeg內核版本，由於ffmpeg內核解析都是代碼實現，所以無縫切換非常完美，看不到絲毫的中間切換過程，看起來就像是在一個通道畫面中。其實這種切換隻能說是取巧辦法，最佳的辦法應該是公用一個open

2024-04-18 10:40:53

大模型分布式训练并行技术

隨着深度學習的發展，模型規模逐漸增大，數據量和計算需求也呈爆炸式增長。在單個計算設備上完成大模型的訓練變得不切實際，因此，分佈式訓練成爲了解決這一問題的關鍵。在分佈式訓練中，數據並行是一種非常有效的策略，通過將數據和計算任務分佈到多個計算設

2024-04-10 23:29:41

引领向量数据库技术新变革，Milvus 2.4 正式上线！

備受關注的 Milvus 2.4 正式上線！作爲向量數據庫賽道的領軍者，Zilliz 一直致力於推動向量技術的進步與創新。本次發佈中，Milvus 新增支持基於 NVIDIA 的 GPU 索引—— CUDA 加速圖形索引（CAGRA），

2024-03-25 21:26:35

爱奇艺 CTR 场景下的 GPU 推理性能优化

01 背景介紹 GPU 目前大量應用在了愛奇藝深度學習平臺上。GPU 擁有成百上千個處理核心，能夠並行的執行大量指令，非常適合用來做深度學習相關的計算。在 CV（計

2024-03-15 15:57:51

阿里云容器服务助力万兴科技 AIGC 应用加速

2023 年堪稱是 AIGC 元年，文生圖領域誕生了 Stable Diffusion 項目，文生文領域誕生了 GPT 家族。一時間風起雲湧，國內外許多企業投身 AIGC 創新浪潮，各大雲廠商緊隨其後紛紛推出自己的大語言模型。在文生圖領域落

2023-12-28 01:18:57

Caffe框架整理

Caffe安裝 Caffe框架下載地址：https://github.com/BVLC/caffe 下載完成後解壓，進入主目錄，執行 cp Makefile.config.example Makefile.config 安裝依賴

2023-11-07 13:31:07

搭建一款性价比运行AI平台

顯存 8G x 2 共16G顯存的 AI大模型運行平臺上配置配置價格備註 A85大板+ amd x4 760k 60 也可以h61+e3v2 或者 x99 + e5v3 或者h81+e3 v3 或者 a32

2023-10-24 13:25:36

云原生 AI 工程化实践之 FasterTransformer 加速 LLM 推理

01 背景 OpenAI 在 3 月 15 日發佈了備受矚目的 GPT4，它在司法考試和程序編程領域的驚人表現讓大家對大語言模型的熱情達到了頂點。人們紛紛議論我們是否已經跨入通用人工智能的時代。與此同時，基於大語言模型的應用也如雨後春筍般

2023-08-15 00:37:15

应对突发流量，如何快速为自建 K8s 添加云上弹性能力

以 Kubernetes 爲代表的容器技術帶來的是一種應用交付模式的變革，其正迅速成爲全世界數據中心的統一 API。爲了保證業務持續穩定、用戶訪問不中斷，高可用、高彈性等能力是應用架構設計不變的追求，多集羣架構天然具備這樣的能力。而只有在

2023-07-12 00:28:14

阿里云 PAIx 达摩院 GraphScope 开源基于 PyTorch 的 GPU 加速分布式 GNN 框架

導讀近期阿里雲機器學習平臺 PAI 團隊和達摩院 GraphScope 團隊聯合推出了面向 PyTorch 的 GPU 加速分佈式 GNN 框架 GraphLearn-for-PyTorch(GLT) 。GLT 利用 GPU 的強大並行

2023-06-22 00:21:41

搭建openmmlab的mmcv v1.4遇到的问题

按照文檔安裝mmcv報錯在執行python setup.py build_ext 報錯缺少THE/THE.H庫更改安裝方式改用官網https://mmdetection.readthedocs.io/zh_CN/v2.25.

2023-05-22 01:22:01

GPT大语言模型Alpaca-lora本地化部署实践【大语言模型实践一】 | 京东云技术团队

模型介紹 Alpaca模型是斯坦福大學研發的LLM（Large Language Model，大語言）開源模型，是一個在52K指令上從LLaMA 7B（Meta公司開源的7B）模型微調而來，具有70億的模型參數（模型參數越大，模型的推理能

2023-05-17 11:50:48

用于双目重建中的GPU编程：julia-cuda

作者：京東科技李大沖一、Julia是什麼 julia是2010年開始面世的語言，作爲一個10後，Julia必然有前輩們沒有的特點。Julia被期望塑造成原生的有C++的運行速度、python的易交互性以及膠水性。最重要的是，julia

2023-02-27 11:36:25

小熊飞桨练习册-01手写数字识别

小熊飛槳練習冊-01手寫數字識別簡介小熊飛槳練習冊-01手寫數字識別，本項目開發和測試均在 Ubuntu 20.04 系統下進行。項目最新代碼查看主頁：小熊飛槳練習冊百度飛槳 AI Studio 主頁：小熊飛槳練習冊-01手寫數字識

2022-04-30 10:53:28

24小時熱門文章

最新文章

最新評論文章