原创 cublasSgemmBatched使用說明

背景 在GPU進行計算的時候,很多時候都需要利用cublas的API, 常用的API有兩個:cublasSgemm 和cublasSgemmBatched, 使用過MKL的可能覺得很熟悉,連參數都是一樣的,但是這裏有一比較坑的地方

原创 Transformer的實現原理(tensor2tensor)

背景        最近在做機器翻譯的優化,接觸到的是谷歌在18年發佈的transformer模型,在經歷過一個星期後的算法原理和源碼閱讀後,基本上對整個模型有了相對透徹的理解,下面對整個流程進行復盤避免以後自己忘記,後面也會對相關優化進

原创 C++ 中的類型萃取理論

最近在看fastertransfomer源碼,其中裏面涉及到不少trait的技巧,記得之前在看stl的時候有涉及過,簡單對該方法進行簡單記錄。 在STL中,算法和容器是隔離開的,比如排序算法適用於vector,list,queue,而算法

原创 Nvidia顯卡硬件與軟件

硬件 下面這張圖是GPU的硬件結構,這個圖有點大,放大看可以看到很多細節,我們可以看到有各種硬件組成單元,比如GPC,TPC,SM, L2Cache,綠色小塊就是cuda core也叫sp,後面這些都有專門對應的軟件信息。 再往

原创 英偉達顯卡

架構排序(時間順序): Tesla: 市面已經沒有相關顯卡 Fermi:GeForce 400, 500, 600, GT-630 Kepler:Tesla K40/K80, GeForce 700, GT-730 Maxwel

原创 Tensorflow中張量,節點,命名理解

張量,節點,命名理解 在定義靜態圖的時候, a = tf.constant([1.0,2.0],name='x') b = tf.constant([1.0,2.0],name='y') c = tf.add(a,b,name='nmsl

原创 End-to-End Object Detection with Transformers[DETR]

End-to-End Object Detection with Transformers[DETR]背景概述相關技術輸入提取特徵獲取position_embeddingtransformerencoderdecoder迴歸總結