cuda 寄存器數組使用解析

原創

2020-06-01 01:53

關於cuda寄存器數組

在基於cuda對一些算法做並行優化時，爲了儘可能的提高算法的運行速度，有時我們會想要用寄存器數組使得算法飛一般的快，然而，效果卻總是差強人意。用了竟然比沒用快，這是爲什麼呢？

哈哈，說重點，我們定義寄存器數組有以下兩種方式：

1 Inta[8];

此時，我們定義的數組真的是我們想要的寄存器數組嗎？這樣的定義，編譯器將我們定義的“寄存器數組”放在了 local memory，而local memory 就是在顯存中開闢的一塊空間，速度怎麼可能會快？

2 int a[8] = {0,0,0,0,0,0,0,0};

定義時順便初始化，此時是不是我們想要的寄存器數組呢？不一定，只能說有一定的概率是我們想要的寄存器數組。編譯器會根據定義數組的大小確定是否將寄存器數組放入local memory。可是具體數組的size爲多少會是我們想要的寄存器數組，不得而知！

那麼，有沒有方法強制使我們定義的寄存器數組保存在寄存器中呢？我表示，沒查到。

好像只有定義多個變量。

例如：將 int a[8]; 替換爲如下形式:

Int a0;

Int a1;

Int a2;

Int a3;

Int a4;

Int a5;

Int a6;

Int a7;

只是這樣的定義方法，程序的通用性會再降一個級別

說了半天，好像淨是廢話，這樣當然可以啦。好了，再強調一下，如果各位博友知道如何在cuda中如何定義我們想要的寄存器數組(不是將存儲空間開闢在local memory中的寄存器數組)，請一定聯繫我，跪謝。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發70-無感切換通道/無縫切換播放視頻/多通道流暢切換/不同視頻打開無縫切換

一、前言之前就寫過這個方案，當時做的是ffmpeg內核版本，由於ffmpeg內核解析都是代碼實現，所以無縫切換非常完美，看不到絲毫的中間切換過程，看起來就像是在一個通道畫面中。其實這種切換隻能說是取巧辦法，最佳的辦法應該是公用一個open

2024-04-18 10:40:53

大模型分佈式訓練並行技術

隨着深度學習的發展，模型規模逐漸增大，數據量和計算需求也呈爆炸式增長。在單個計算設備上完成大模型的訓練變得不切實際，因此，分佈式訓練成爲了解決這一問題的關鍵。在分佈式訓練中，數據並行是一種非常有效的策略，通過將數據和計算任務分佈到多個計算設

2024-04-10 23:29:41

引領向量數據庫技術新變革，Milvus 2.4 正式上線！

備受關注的 Milvus 2.4 正式上線！作爲向量數據庫賽道的領軍者，Zilliz 一直致力於推動向量技術的進步與創新。本次發佈中，Milvus 新增支持基於 NVIDIA 的 GPU 索引—— CUDA 加速圖形索引（CAGRA），

2024-03-25 21:26:35

愛奇藝 CTR 場景下的 GPU 推理性能優化

01 背景介紹 GPU 目前大量應用在了愛奇藝深度學習平臺上。GPU 擁有成百上千個處理核心，能夠並行的執行大量指令，非常適合用來做深度學習相關的計算。在 CV（計

2024-03-15 15:57:51

阿里雲容器服務助力萬興科技 AIGC 應用加速

2023 年堪稱是 AIGC 元年，文生圖領域誕生了 Stable Diffusion 項目，文生文領域誕生了 GPT 家族。一時間風起雲湧，國內外許多企業投身 AIGC 創新浪潮，各大雲廠商緊隨其後紛紛推出自己的大語言模型。在文生圖領域落

2023-12-28 01:18:57

Caffe框架整理

Caffe安裝 Caffe框架下載地址：https://github.com/BVLC/caffe 下載完成後解壓，進入主目錄，執行 cp Makefile.config.example Makefile.config 安裝依賴

2023-11-07 13:31:07

搭建一款性價比運行AI平臺

顯存 8G x 2 共16G顯存的 AI大模型運行平臺上配置配置價格備註 A85大板+ amd x4 760k 60 也可以h61+e3v2 或者 x99 + e5v3 或者h81+e3 v3 或者 a32

2023-10-24 13:25:36

雲原生 AI 工程化實踐之 FasterTransformer 加速 LLM 推理

01 背景 OpenAI 在 3 月 15 日發佈了備受矚目的 GPT4，它在司法考試和程序編程領域的驚人表現讓大家對大語言模型的熱情達到了頂點。人們紛紛議論我們是否已經跨入通用人工智能的時代。與此同時，基於大語言模型的應用也如雨後春筍般

2023-08-15 00:37:15

應對突發流量，如何快速爲自建 K8s 添加雲上彈性能力

以 Kubernetes 爲代表的容器技術帶來的是一種應用交付模式的變革，其正迅速成爲全世界數據中心的統一 API。爲了保證業務持續穩定、用戶訪問不中斷，高可用、高彈性等能力是應用架構設計不變的追求，多集羣架構天然具備這樣的能力。而只有在

2023-07-12 00:28:14

阿里雲 PAIx 達摩院 GraphScope 開源基於 PyTorch 的 GPU 加速分佈式 GNN 框架

導讀近期阿里雲機器學習平臺 PAI 團隊和達摩院 GraphScope 團隊聯合推出了面向 PyTorch 的 GPU 加速分佈式 GNN 框架 GraphLearn-for-PyTorch(GLT) 。GLT 利用 GPU 的強大並行

2023-06-22 00:21:41

搭建openmmlab的mmcv v1.4遇到的問題

按照文檔安裝mmcv報錯在執行python setup.py build_ext 報錯缺少THE/THE.H庫更改安裝方式改用官網https://mmdetection.readthedocs.io/zh_CN/v2.25.

2023-05-22 01:22:01

GPT大語言模型Alpaca-lora本地化部署實踐【大語言模型實踐一】 | 京東雲技術團隊

模型介紹 Alpaca模型是斯坦福大學研發的LLM（Large Language Model，大語言）開源模型，是一個在52K指令上從LLaMA 7B（Meta公司開源的7B）模型微調而來，具有70億的模型參數（模型參數越大，模型的推理能

2023-05-17 11:50:48

用於雙目重建中的GPU編程：julia-cuda

作者：京東科技李大沖一、Julia是什麼 julia是2010年開始面世的語言，作爲一個10後，Julia必然有前輩們沒有的特點。Julia被期望塑造成原生的有C++的運行速度、python的易交互性以及膠水性。最重要的是，julia

2023-02-27 11:36:25

小熊飛槳練習冊-01手寫數字識別

小熊飛槳練習冊-01手寫數字識別簡介小熊飛槳練習冊-01手寫數字識別，本項目開發和測試均在 Ubuntu 20.04 系統下進行。項目最新代碼查看主頁：小熊飛槳練習冊百度飛槳 AI Studio 主頁：小熊飛槳練習冊-01手寫數字識

2022-04-30 10:53:28

小熊飛槳練習冊-03石頭剪刀布

小熊飛槳練習冊-03石頭剪刀布簡介小熊飛槳練習冊-03石頭剪刀布，本項目開發和測試均在 Ubuntu 20.04 系統下進行。項目最新代碼查看主頁：小熊飛槳練習冊百度飛槳 AI Studio 主頁：小熊飛槳練習冊-03石頭剪刀布 U

2022-04-30 10:53:26

24小時熱門文章

最新文章

最新評論文章