文獻閱讀（76）

原創

tiaozhanzhe1900

2020-06-29 02:29

文章目錄

3 accelerator結構

3.1 軟件接口

題目：Synetgy: Algorithm-hardware Co-design for ConvNet Accelerators on Embedded FPGAs
時間：2019
會議：FPGA
研究機構：伯克利/清華
博客參考：https://zhuanlan.zhihu.com/p/91064128

1 abstract & introduction

本篇論文的主要貢獻：

基於ShuffleNetV2設計了一個新的網絡模型：DiracDeltaNet
通過軟硬件協同的思想，以及對應的accelerator：Synetgy

2 網絡設計

2.1 ShuffleNetV2

ShuffleNetV2有這幾個特點：

模型較小，計算量較小
採用了concatenative skip連接而不是additive skip連接

2.2 網絡主要的改進

3x3卷積換成了shift模塊和1x1卷積
3x3卷積是9個數變成1個數，shift就是從9個數中按照規則copy1個數作爲輸出
3x3max-pooling換成2x2最大池化
channel shuffle順序更換：方便硬件實現

2.3 網絡量化

權重按照這個公式量化

activation參考了論文Pact: Parameterized clipping activation for quantized neural networks 2018，採用這個公式量化：

重訓練參考論文Towards Effective Low-bitwidth Convolutional Neural Networks 2017 arXiv，每次重訓練50epoch，一直量化到權重1bit，activation4bit

3 accelerator結構

利用了HLS生成硬件，硬件需要完成的運算：

1x1卷積
2x2最大池化
shift
shuffle和concatenation

硬件不支持的運算：

全連接層則用1x1卷積運算完成
shuffle操作用CPU-based memory copy
平均池化用ARM

3.1 軟件接口

開發板爲Xilinx Zynq UltraScale+ MPSoC，ARM上跑linux系統，通過基於PYNQ部署，並且在ARM上計算最後7x7的平均池化

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

文獻閱讀（82）

文章目錄1 abstract & introduction2 Clamping Rectified Linear Unit3 量化方法3.1 前向近似3.2 後向近似題目：Efficient Quantization for

tiaozhanzhe1900

2020-07-07 23:49:18

文獻閱讀（59）

文章目錄1 縮寫 & 引用2 abstract & introduction3 神經網絡的比特級稀疏性4 Laconic 題目：Laconic Deep Learning Inference Acceleration 時間：20

tiaozhanzhe1900

2020-06-29 02:29:52

文獻閱讀（50）

文章目錄1 縮寫 & 引用2 abstract & introduction3 硬件架構3.1 計算單元3.2 Xbar interconnect3.3 流緩衝區和filter caches4 圖編譯器4.1 切分4.2 存儲分配

tiaozhanzhe1900

2020-06-29 02:29:52

文獻閱讀（20）

文章目錄1 abstract & introduction &related work2 approach2.1 observation(state space)2.2 action space2.3 硬件的直接反饋2.4 量化2

tiaozhanzhe1900

2020-06-29 02:29:52

文獻閱讀（70）

文章目錄1 縮寫 & 引用2 abstract & introduction1 縮寫 & 引用2 abstract & introduction3 相關工作4 低階近似和通道剪枝的結合4.1 基於SVD的低階近似4.2 泰勒剪枝4

tiaozhanzhe1900

2020-06-29 02:29:52

文獻筆記（4）(2018ISSCC 13.3)

文章目錄1 英文縮寫2 overall architecture1 縮寫&引用2 abstract & introduction3 overall硬件結構4 workload mapping on unified DNN core

tiaozhanzhe1900

2020-06-29 02:29:52

文獻閱讀（91）

文章目錄1 縮寫 & 引用2 abstract & introduction3 相關工作4 方法論4.1 構建一個over-parameterized網絡3.2 二值化的path3.3 基於硬件的latency3.4 基於強化學習

tiaozhanzhe1900

2020-06-29 02:29:42

文獻閱讀（69）

文章目錄1 縮寫 & 引用2 abstract & introduction3 提出的方法3.1 稀疏度的定義3.2 layer-wise polishment(LWP)3.3 梯度優化4 實驗結果4.1 layer-wise

tiaozhanzhe1900

2020-06-29 02:29:41

文獻閱讀（73）

文章目錄1 縮寫 & 引用2 abstract & introduction3 提出的架構3.1 PE架構4 數據流5 實現結果題目：Convolutional Neural Network Accelerator with

tiaozhanzhe1900

2020-06-29 02:29:41

文獻閱讀（57）

文章目錄1 縮寫 & 引用2 abstract & introduction3 細粒度混合精度4 稀疏深度學習計算單元5 跳零MAC運算6 輸入負載平衡題目：An Energy-Efficient Sparse Deep-Ne

tiaozhanzhe1900

2020-06-29 02:29:41

文獻閱讀（60）

文章目錄1 縮寫&引用2 abstract & introduction3 background & related work4 addnet可配置乘法器4.1 可配置乘法器4.2 FPGA乘法器映射4.3 架構5 addnet訓

tiaozhanzhe1900

2020-06-29 02:29:41

文獻閱讀（63）

文章目錄1 縮寫 & 引用2 abstract & introduction3 零權重skip3.1 權重lookahead3.2 權重lookaside3.3 硬件連接和軟件影響題目：Bit-Tactical: A Soft

tiaozhanzhe1900

2020-06-29 02:29:41

文獻閱讀（61）

文章目錄1 縮寫 & 引用2 abstract & introduction3 方法論3.1 通用的基於LUT的有常數乘法4 run-time可配置的CNN卷積核架構4.1 通用架構4.2 faithfully rounded S

tiaozhanzhe1900

2020-06-29 02:29:41

文獻閱讀（74）

文章目錄1 縮寫 & 引用2 abstract & introduction3 背景3.1 餘數系統3.2 壓縮算法3.3 相關工作4 提出的架構題目：Res-DNN: A Residue Number System-Base

tiaozhanzhe1900

2020-06-29 02:29:41

文獻閱讀（37）

文章目錄1 縮寫 & 引用2 abstract & introduction3 前端設計方法3.1 背景3.2 OOHLS overview3.3 latency insensitive(LI) channels3.4 Match

tiaozhanzhe1900

2020-06-29 02:29:41

24小時熱門文章

最新文章

最新評論文章