台部落s.feng

背景在GPU進行計算的時候，很多時候都需要利用cublas的API, 常用的API有兩個：cublasSgemm 和cublasSgemmBatched, 使用過MKL的可能覺得很熟悉，連參數都是一樣的，但是這裏有一比較坑的地方

2020-07-03 05:06:04

背景最近在做機器翻譯的優化，接觸到的是谷歌在18年發佈的transformer模型，在經歷過一個星期後的算法原理和源碼閱讀後，基本上對整個模型有了相對透徹的理解，下面對整個流程進行復盤避免以後自己忘記，後面也會對相關優化進

2020-06-26 07:38:45

最近在看fastertransfomer源碼，其中裏面涉及到不少trait的技巧，記得之前在看stl的時候有涉及過，簡單對該方法進行簡單記錄。在STL中，算法和容器是隔離開的，比如排序算法適用於vector,list,queue，而算法

2020-06-26 07:38:35

硬件下面這張圖是GPU的硬件結構，這個圖有點大，放大看可以看到很多細節，我們可以看到有各種硬件組成單元，比如GPC,TPC,SM, L2Cache，綠色小塊就是cuda core也叫sp,後面這些都有專門對應的軟件信息。再往

2020-06-26 07:38:35

架構排序（時間順序）： Tesla: 市面已經沒有相關顯卡 Fermi：GeForce 400, 500, 600, GT-630 Kepler：Tesla K40/K80, GeForce 700, GT-730 Maxwel

2020-06-16 16:10:25

張量，節點，命名理解在定義靜態圖的時候， a = tf.constant([1.0,2.0],name='x') b = tf.constant([1.0,2.0],name='y') c = tf.add(a,b,name='nmsl

2020-06-10 05:35:53

End-to-End Object Detection with Transformers[DETR]背景概述相關技術輸入提取特徵獲取position_embeddingtransformerencoderdecoder迴歸總結

2020-06-10 05:35:42