原创 GPGPU-Sim學習-如何禁用GPGPU-Sim內的L1 cache

最近在做一個觀察實驗,把L1 cache禁用以後,看看benchmark的IPC。在Sim 文檔中並沒有禁用L1 cache的描述,但是Sim的代碼中卻考慮到了這一因素,所以我們可以直接修改幾行代碼達到禁用L1 cache的效果

原创 GPGPU-Sim(番外)-GPGPU-Sim的模擬機制

這是我本科畢設內容的一部分,內容是一篇論文中的一部分,僅供學習,歡迎拍磚 如圖,我們展示了CUDA應用程序在GPU和GPGPU-Sim下的編譯運行過程。 CUDA應用程序分爲device代碼和host代碼。當在GPU上編譯

原创 libtorch 上線之路-學習篇

最近在嘗試將組裏幾個pytorch的模型使用libtorch 做nn inference,折騰了幾個周,一路踩坑,終於把整個流程都打通了。因爲libtorch還比較新,網上經驗性的資料還比較少,現在寫下來總結一下經驗,分享一下。

原创 GPGPU-Sim學習(二)(補充)gpgpu-sim官網所給虛擬機與自己所搭建虛擬機的使用感受

最近GPGPU-Sim的官網竟然給出了自己的虛擬機,這絕對是GPGPU-Sim學習者的最大福利了。因爲安裝sim的週期一般需要一個周,需要反覆嘗試很多次(20+),而且就目前我所遇見的simer,花這麼多時間,50%安裝失敗了。

原创 亂七八糟-局域網內解決路由器無法支持ipv6問題……

情景:爲了訪問局域網資源,實驗室內用路由器搭建了局域網。問題來了……外網支持ipv6,買的路由器不支持ipv6,ipv6一過路由器就沒了。 在網上找了很久,網上大部分的場景是在寢室爲了省錢……目前這個場景下沒找到解決方式。 解

原创 GPGPU-Sim學習(二)搭建GPGPU-Sim環境(ubuntuServer 10.04 安裝GPGPU-Sim)

最近發現在sim的官網那個已經給出了安裝好gpgpu-sim的虛擬機,也是大家的福音。請戳官網鏈接http://gpgpu-sim.org/,我的寫一篇《GPGPU-Sim學習(二)(補充)gpgpu-sim官網所給虛擬機與自己所

原创 拷貝global memory,cudaMemcpyToSymbol 和cudaMemcpy函數是否有區別

這是今天在羣裏有人問了這麼一個問題 cudaMemcpyToSymbol可以將數據從host拷貝到global,cudaMemcpy也是從host到>global,這種情況下二個函數有什麼區別嗎? 和各位大佬討論一下後,和大

原创 GPGPU-Sim學習(零)-寫在前面

博客再一次搬家(好吧,其實是自己始終沒堅持下去)。遷到CSDN上的原因一是這裏有關於CUDA的東西(以前在科學網和博客園上都木有),還有一個就是可以用Markdown。加上新學期,又有三分熱血寫博客了。 在做GPGPU-Sim的這

原创 GPGPU-Sim(番外)-如何加快GPGPU-Sim的運行速度

序言 GPGPU-Simer都應該體驗過Sim在虛擬機中奇慢無比的速度,一個在真實環境下幾ms就跑完的benchmark,在Sim下通常需要幾十分鐘到幾小時。跑一次實驗benchmark多了基本就得一天,比較浪費時間。 等待總是

原创 GPGPU-Sim學習(一)-GPGPU-Sim介紹

本部分內容分爲以下幾個部分:概括性地介紹GPGPU-Sim、學習GPGPU-Sim的建議步驟、部分資料 概括性地介紹GPGPU-Sim GPGPU-Sim,通過單線程方式模擬出GPU多線程運行效果,並輸出統計數據,是當前比較流

原创 OpenCV如何實現透明(alpha channel)圖像的讀取和寫入

最近在做一個曲線匹配的東西,用的是OpenCV,需要根據一定的軌跡將原圖上的某一塊區域切割下來,需要空白的地方透明。 比如: 在OpenCV裏,正常是讀取圖像和寫入圖像默認都是忽略透明通道的,官網上只是簡單的提了一下,所以在

原创 CUDA進階補充篇:詳析各種CUDA函數計時函數

寫在前面:之前寫了一篇CUDA進階第三篇:CUDA計時方式,列出了幾種當時遇到的CUDA計時方式,只是個教程式的東西,沒有太多技術含量,也不太全面。前幾天在CUDA Professional(45157483)羣裏和大佬們討論到CUDA

原创 CUDA進階第六篇-GPU資源(顯存、句柄等)管理

最近在加速一個圖像算法,符合《CUDA進階第五篇-如何估算出程序的GPU加速比》中的第二種情況,程序由核函數和GPU API實現,但是資源管理特別差,顯存和句柄在程序中使用時才申請。每次函數執行都要申請和釋放一遍,非常耗費時間。優化方案一

原创 GPU體系結構-the miss status holding register(MSHR)原理簡介

最近在看論文的時候裏面有一段介紹MSHR的原理,以後有可能用做這方面的東西,先寫出來。 英文原文 On a cache hit, a request will be served by sending data to the regi

原创 CUDA進階第四篇-如何實時獲得GPU各種資源利用率(NVML)

CUDA進階第四篇-如何實時獲得GPU各種資源利用率 前幾天在玩digits的時候發現在訓練的過程中網頁上能夠動態顯示顯卡利用率,顯存利用率和溫度。突然想起來前幾天有人問過這個問題並查了一下目前好像並沒有類似的中文博客,所以就探究了一下這