論文瀏覽(6) EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

原創

2020-06-13 21:00

0. 前言

而神經網絡設計時，一般步驟是先設計/選擇一個基礎網絡（如ResNet/MoBileNet），再在基礎網絡的基礎上對一些網絡結構基本參數（如depth/width/resolution）進行縮放（scaling）。
- 在設計神經網絡之前，一般會預先設定最多能使用的資源。這就會作爲模型參數縮放的條件。
上述模型設計存在的問題：
- 但具體縮放的方式到目前爲止並沒有什麼都只是一些試錯的結果。
- 一般在模型縮放時，都是對其中一個維度進行，稍有多個維度同時進行的。
- 之前也有同時擴展多個維度的算法，都需要大量手工調參。

提出了一種新的模型縮放方法：
- 同時縮放多個維度（depth/width/resolution）
- 使用了一個簡單並高效的混合係數（compound coefficient）。
- 不同維度模型縮放方法如下圖所示：
模型縮放的具體細節：
- 將問題抽象畫爲一個數學公式：
  - 其中 w, r, d 是模型縮放參數，而 F, L, H, W, C 都是baseline的基本參數。
- 模型設計的難點在於尋找到在符合條件內最優的參數 w, r, d
  - 首先有一個觀察結果：增加任意一個維度都可以提高模型精度，大模型提高的精度較少。
  - 不同維度的縮放並不是獨立的：
    - 更大的圖像分辨率就需要更大的深度，從而提高視野域內的特徵。
    - 更大的圖像分辨率也需要更大的寬度，每一層獲取更多的特徵。
  - 本文提出了 compound scaling method 混合縮放方法，這種方法令 w, r, d 通過下面公式確定：
    - $\phi$ 是我們要確定的參數，表示能多多少資源（模型增加多少倍）。
    - $\alpha, \beta, \gamma$ 是通過 grid search 獲取。
設計了一種新的baseline用於縮放
- 上面提出的模型縮放技術對於baseline的要求非常高，在mobilenet/resnet上都達到的較好的效果。
- 爲了進一步提高性能，通過NAS設計了一種新的baseline。