Towards Accurate Binary Convolutional Neural Network

文章目錄

文章鏈接 2017年11月30日

Introduction

主要的工作：

1：使用多種binary weight base進行線性組合來接近全精度的權值

2：引入多種binary activations。這個將BNNs在Image上的精度提升了將近5%

Realted Work

We relied on the idea of finding the best approximation of full-precision convolution using multiple binary operations, and employing multiple binary activations to allow more information passing through.

Binarization methods

Weight approximation

用 $(w,h,c_{in},c_{out})$ 表示一個層的tensors。有兩種不同的量化方法：1) approximate weights as a whole and 2) approximate weights channel-wise

Approximate weights as a whole

使用 $M$ 個二值化的濾波器 $B_1,B_2,\cdots,B_M \in \{-1, +1\}^{w\times h\times c_{in}\times c_{out}}$ 來逼近實值的權重 $W\in \mathbb{R}^{w\times h\times c_{in}\times c_{out}}$ ，如 $W \approx \alpha_1B_1+\alpha_2B_2+\dots+\alpha_MB_M$ 。一個直接方法是解下面的這個問題：
$\min _{\boldsymbol{\alpha}, \boldsymbol{B}} J(\boldsymbol{\alpha}, \boldsymbol{B})= {{||\boldsymbol{w}-\boldsymbol{B}\boldsymbol{\alpha}||}^2 \text{ s.t. } \boldsymbol{B}_{i j} \in\{-1,+1\} }\tag{1}$ 式中， $\boldsymbol{B}=\left[\operatorname{vec}\left(\boldsymbol{B}_{1}\right), \operatorname{vec}\left(\boldsymbol{B}_{2}\right), \cdots, \operatorname{vec}\left(\boldsymbol{B}_{M}\right)\right], \boldsymbol{w}=\operatorname{vec}(\boldsymbol{W}) \text { and } \boldsymbol{\alpha}=\left[\alpha_{1}, \alpha_{2}, \cdots, \alpha_{M}\right]^{\mathrm{T}}$ ， $\operatorname{vec}(\cdot)$ 表示的是向量化。假設用 $\operatorname{mean}(\boldsymbol{W})$ 和 $\operatorname{std}(\boldsymbol{W})$ 分別表示 $\boldsymbol{W}$ 的均值和方差，那麼將 $B_i$ 改爲：
$\boldsymbol{B}_{i}=F_{u_{i}}(\boldsymbol{W}):=\operatorname{sign}\left(\overline{\boldsymbol{W}}+u_{i} \operatorname{std}(\boldsymbol{W})\right), i=1,2, \cdots, M\tag{2}$ 式中， $\overline{\boldsymbol{W}}=\boldsymbol{W}-\operatorname{mean}(\boldsymbol{W})$ ， $u_i$ 是一個滑動因子。例如，將 $u_i$ 設定爲 $u_i=-1+(i-1){2 \over M-1},i=1,2,\cdots,M$ 來覆蓋的整個 $[-\operatorname{std}(\boldsymbol{W}),\operatorname{std}(\boldsymbol{W})]$ 範圍，或者通過網絡去學習。

一旦 $\boldsymbol{B}_i$ 選定之後，上面的問題就變成了一個線性迴歸問題：
$\min _{\boldsymbol{\alpha}} J(\boldsymbol{\alpha})=\|\boldsymbol{w}-\boldsymbol{B} \boldsymbol{\alpha}\|^{2}\tag{3}$ 式中， $\boldsymbol{B}_i$ 是the bases in the design/dictionary matrix。然後使用STE更新 $\boldsymbol{B}_i$ 。假定 $c$ 是代價函數， $\boldsymbol{A}$ 和 $\boldsymbol{O}$ 分別是卷積的輸入輸出tensor，前向和反向就可以按照如下的形式計算：
$\begin{array}{l}{\text { Forward: } B_{1}, B_{2}, \cdots, B_{M}=F_{u_{1}}(W), F_{u_{2}}(W), \cdots, F_{u_{M}}(W)} \\ {\text { Solve }(3) \text { for } \alpha} \\ {\qquad \begin{aligned} O=& \sum_{m=1}^{M} \alpha_{m} \operatorname{Conv}\left(B_{m}, A\right) \\ \text { Backward: } \frac{\partial c}{\partial W} &=\frac{\partial c}{\partial O}\left(\sum_{m=1}^{M} \alpha_{m} \frac{\partial O}{\partial B_{m}} \frac{\partial B_{m}}{\partial W}\right) \stackrel{\text { sTE }}{=} \frac{\partial c}{\partial O}\left(\sum_{m=1}^{M} \alpha_{m} \frac{\partial O}{\partial B_{m}}\right)=\sum_{m=1}^{M} \alpha_{m} \frac{\partial c}{\partial B_{m}} \end{aligned}}\end{array}$

Multiple binary activations and bitwise convolution

爲了實現bitwise操作，必須將激活值也量化掉，因爲它們將作爲卷積的輸入。激活函數表示爲 $h(x)\in [0,1]$ ：
$h_v(x)=\operatorname{clip}(x+v,0,1)\tag{4}$ 式中， $v$ 是滑動因子。量化的函數爲：
$H_{v}(\boldsymbol{R}):=2 \mathbb{I}_{\boldsymbol{h}_{v}(\boldsymbol{R}) \geq 0.5}-1\tag{5}$ 式中， $\mathbb{I}$ 是標誌函數，activation的前向和反向就可以這麼計算：
$\begin{array}{l}{\text { Forward: } A=H_{v}(\boldsymbol{R})} \\ \\ \\ {\text { Backward: } \frac{\partial c}{\partial \boldsymbol{R}}=\frac{\partial c}{\partial \boldsymbol{A}} \circ \mathbb{I}_{0 \leq \boldsymbol{R}-v \leq 1} \text { (using STE) }}\end{array}$
其中 $\operatorname{o}$ 表示Hadamard product。
首先，讓激活值的分佈保持相對穩定，使用了batch normalization，把它放在激活函數之前。然後，使用 $N$ 個額二值激活值的線性組合逼近實值 $R\approx \beta_1\boldsymbol{A}_1+\beta_2\boldsymbol{A}_2+\dots+\beta_N\boldsymbol{A}_N$ ，其中，
$\boldsymbol{A}_1,\boldsymbol{A}_2,\dots,\boldsymbol{A}_N=H_{v1}(\boldsymbol{R}),H_{v2}(\boldsymbol{R}),\dots,H_{vN}(\boldsymbol{R}) \tag{6}$ 式中， $\beta_n$ 和 $v_n$ 是可以訓練的，在測試時固定，用來學習數據的分佈。最後整個卷積操作變爲：
$\operatorname{Conv}(\boldsymbol{W}, \boldsymbol{R}) \approx \operatorname{Conv}\left(\sum_{m=1}^{M} \alpha_{m} \boldsymbol{B}_{m}, \sum_{n=1}^{N} \beta_{n} \boldsymbol{A}_{n}\right)=\sum_{m=1}^{M} \sum_{n=1}^{N} \alpha_{m} \beta_{n} \operatorname{Conv}\left(\boldsymbol{B}_{m}, \boldsymbol{A}_{n}\right)\tag{7}$ 這也意味着它能夠並行地計算 $M\times N$ bitwise convolutions 。

Training algorithm

作者說一般的層的連接順序爲 $\text{Conv}\rightarrow \text{BN}\rightarrow \text{Activation}\rightarrow \text{Pooling}$ ，但是在實際過程中，經過最大值池化會將大量的值都變爲+1，造成準確度下降。因此，將max-pooling放在BN層之前。具體的訓練過程在補充材料當中。

Experiment results

Experiment results on ImageNet dataset

使用Resnet作爲基網絡，圖片放縮成224*224大小。

Effect of weight approximation
使用Resnet-18作爲基網絡，BWN表示Binary-Weights-Network，FP表示全精度網絡，結果對比如下：

Comparison with the state-of-the-art

Discussion

Why adding a shift parameter works?
作者說這個可以像BN層中的mean和std一樣，學習數據的分佈。

Advantage over the fixed-point quantization scheme
作者說一個K個二值化的量化方案比K-bit的量化方案好，原因在於1）可以用bitwise操作；2）K個1-bit的乘法器比一個K-bit的乘法器消耗的資源更少；3）保留了脈衝響應

看看視頻還是能更好地理解文章的想法的。

Towards Accurate Binary Convolutional Neural Network

Towards Accurate Binary Convolutional Neural Network

文章目錄

Introduction

Realted Work

Binarization methods

Weight approximation

Multiple binary activations and bitwise convolution

Training algorithm

Experiment results

Experiment results on ImageNet dataset

Discussion

24-5-18 X

Forward and Backward Information Retention for Accurate Binary Neural Networks

Training Quantized Neural Networks with a Full-precision Auxiliary Module

Balanced Binary Neural Networks With Gated Residual

Noise injection and clamping estimation for neural network quantization

Ristretto Hardware-Oriented Approximation of Convolutional Neural Networks

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結