文獻閱讀（61）

原創

2020-06-29 02:29

文章目錄

3.1 通用的基於LUT的有常數乘法

4 run-time可配置的CNN卷積核架構

4.1 通用架構

4.2 faithfully rounded SOP

題目：Reconfigurable Convolutional Kernels for Neural Networks on FPGAs
時間：2019
會議：FPGA
研究機構：德國卡塞爾大學
參考資料：https://zhuanlan.zhihu.com/p/70359023

1 縮寫 & 引用

SOP: sum of product
RCM: reconfigurable constant multipliers
SRL: shift register LUT
CFG-LUT: configurable look-up table
PP: partial product
GPC: generalized parallel counter
SOP: sum of product

2 abstract & introduction

本篇論文主要是針對基於LUT的乘法器的優化，在AI加速器上得到了應用，主要貢獻包括：

LUT乘法器的優化：包括快速可配置的LUT、流水線的compressor樹、faithful rounding（可靠的截斷取整）、線上可配置的scheme
自動化的靈活的工具鏈、依靠開源的代碼生成器FloPoCo
乘法器兼容現有的很多卷積運算單元，可以節省資源開銷

3 方法論

3.1 通用的基於LUT的有常數乘法

一個 $B_c$ 乘 $B_i$ 的乘法，可以把 $B_i$ 按L拆成小塊，比如說按L=4拆分，這樣就變成 $[B_i/L]$ 個 $B_c$ 乘 $L$ 的乘法，而一個 $B_c$ 乘 $L$ 的乘法可以在一個LUT內部實現

之後在用加法樹加起來就好了，這裏叫做compressor tree，可能還有所優化

4 run-time可配置的CNN卷積核架構

4.1 通用架構

要求是權重不變的架構，這樣一個LUT存好數之後還可以用好多次，一個LUT負責一個 $B_c$ 乘 $L$ 的乘法

當權重改變的時候，需要32個時鐘週期來更新LUT，這我沒搞懂

4.2 faithfully rounded SOP

按照這個圖截斷

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

文獻閱讀（61）

文章目錄

1 縮寫 & 引用

2 abstract & introduction

3 方法論

3.1 通用的基於LUT的有常數乘法

4 run-time可配置的CNN卷積核架構

4.1 通用架構

4.2 faithfully rounded SOP

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

文獻閱讀（92）

文獻閱讀（82）

文獻閱讀（84）

文獻閱讀（93）神經網絡壓縮（CVPR 2019）

文獻閱讀（59）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結