《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》論文閱讀筆記

原創

家鸽er

2020-06-16 13:56

論文原文：http://arxiv.org/abs/1502.01852

論文主要討論了以ReLU爲激活函數的網絡的缺陷並提出了改進的激活函數PReLU與新的Kaiming初始化方法

1. PReLU

前向傳播
- 通道獨立： $f\left(y_{i}\right)=\max \left(0, y_{i}\right)+a_{i} \min \left(0, y_{i}\right)$
- 通道共享： $f\left(y_{i}\right)=\max \left(0, y_{i}\right)+a \min \left(0, y_{i}\right)$
區別在於通道共享的PReLU對於每個通道都使用相同的 $a$ ，而通道獨立的PReLU對於每個通道 $i$ 都使用不同的 $a_{i}$ ，這些參數都是與網絡同時訓練得到的
反向傳播
$\frac{\partial \mathcal{E}}{\partial a_{i}}=\sum_{y_{i}} \frac{\partial \mathcal{E}}{\partial f\left(y_{i}\right)} \frac{\partial f\left(y_{i}\right)}{\partial a_{i}}$

$\frac{\partial f\left(y_{i}\right)}{\partial a_{i}}=\left\{\begin{array}{ll}{0,} & {\text { if } y_{i}>0} \\ {y_{i},} & {\text { if } y_{i} \leq 0}\end{array}\right.$

實驗結果
- 在ImageNet上僅改變激活函數能得到1.2的提升
- 越低層的a越遠離0而越高層的a越接近0，說明模型在低層時保留了更多的信息，而在高層時提取更多非線性特徵

2. Kaiming初始化

使用ReLU的網絡相比使用sigmoid的網絡能更快的收斂，但不良的初始化會導致模型難以訓練。
傳統的網絡使用高斯分佈進行初始化，在訓練深層網絡時難以收斂（需要使用預訓練模型或輔助分類器），Xavier初始化基於激活函數是線性的這一假設，不適用於ReLU及其變體
kaiming初始化過程
- 對於前向傳播： $\mathbf{y}_{l}=\mathbf{W}_{l} \mathbf{x}_{l}+\mathbf{b}_{l}$
  - ${x}_{l}$ ： $k^{2} c\times1$
  - ${W}_{l}$ ： $d\times k^{2} c$
  - ${b}_{l}$ ： $d\times 1$
  其中 $k$ 爲輸入圖像大小， $c$ 爲通道數， $d$ 爲核個數
- 初始化 $w_{l}$ 與 $x_{l}$ 都是獨立同分布的，則有
  $\operatorname{Var}\left[y_{l}\right]=n_{l} \operatorname{Var}\left[w_{l} x_{l}\right]=n_{l} \operatorname{Var}\left[w_{l}\right] E\left[x_{l}^{2}\right]$
  只有在 ${x}_{l}$ 是0均值的情況下才有 $E\left[x_{l}^{2}\right] = \operatorname{Var}\left[x_{l}\right]$ ，而ReLU激活後 $x_{l}=\max \left(0, y_{l-1}\right)$ 不滿足0均值，因此將與Xavier中的情況不符
- 如果 ${w}_{l-1}$ 是關於0的對稱分佈， ${b}_{l-1}=0$ ，那麼** ${y}_{l-1}$ 是在0附近的均值爲0的對稱分佈**，當激活函數爲ReLU時，有 $E\left[x_{l}^{2}\right]=\frac{1}{2} \operatorname{Var}\left[y_{l-1}\right]$ ，帶入上式得到
  $\operatorname{Var}\left[y_{l}\right]=\frac{1}{2} n_{l} \operatorname{Var}\left[w_{l}\right] \operatorname{Var}\left[y_{l-1}\right]$
- 若有多層網絡，則公式變爲
  $\operatorname{Var}\left[y_{L}\right]=\operatorname{Var}\left[y_{1}\right]\left(\prod_{l=2}^{L} \frac{1}{2} n_{l} \operatorname{Var}\left[w_{l}\right]\right)$
- 要使輸入輸出的方差不變，就需要對於每一層都有
  $\frac{1}{2} n_{l} \operatorname{Var}\left[w_{l}\right]=1, \quad \forall l$
- 這就能得出對於每一層只要設置 $w_{l}$ 方差爲 $\sqrt{2 / n_{l}}$ 的高斯分佈即可
討論
- 使用高斯分佈時訓練深層網絡會出現梯度消失現象
- 變量的方差會從頭到尾保持，如果輸入沒有標準化，方差的量級將會變得很大導致softmax overflow
- 使用PReLU後，初始化公式變爲 $\frac{1}{2}\left(1+a^{2}\right) n_{l} \operatorname{Var}\left[w_{l}\right]=1$
- 與Xavier初始化的比較
  - Xavier只考慮 $n_{l} \operatorname{Var}\left[w_{l}\right]=1$ ，設置方差爲 $\sqrt{1 / n_{l}}$
  - Kaiming考慮 $\frac{1}{2} n_{l} \operatorname{Var}\left[w_{l}\right]=1$ ，設置方差爲 $\sqrt{2 / n_{l}}$
  - 兩種初始化都能使淺層網絡收斂，但Kaiming能使深層網絡收斂並且速度更快

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》論文閱讀筆記

1. PReLU

2. Kaiming初始化

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

一文搞懂 Spring 循環依賴

抖音面試：說說延遲任務的調度算法？

《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》論文閱讀筆記

Opencv-python 常用操作函數速查筆記

pyqt5 疑難雜症

pyqt5中設置圖片顯示等比例縮放

python + pyqt5開發自定義劃屏截圖工具並上傳個人圖牀

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結