令人拍案叫絕的EfficientNet和EfficientDet

轉載：https://zhuanlan.zhihu.com/p/96773680

本文介紹谷歌發表於 ICML 2019的 EfficientNet 和最近掛在arXiv上的 EfficientDet, 第一作者爲同一個人，來自谷歌大腦團隊，紙面上體現出來的效果是非常好的。

先介紹第一篇文章—— EfficientNet

論文：EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

代碼：https://github.com/qubvel/efficientnet

文章摘要

卷積神經網絡（ConvNets）通常是在固定的資源預算下發展起來的，如果有更多的資源可用的話，則會擴大規模以獲得更好的精度，比如可以提高網絡深度(depth)、網絡寬度(width)和輸入圖像分辨率 (resolution)大小。但是通過人工去調整 depth, width, resolution 的放大或縮小的很困難的，在計算量受限時有放大哪個縮小哪個，這些都是很難去確定的，換句話說，這樣的組合空間太大，人力無法窮舉。基於上述背景，該論文提出了一種新的模型縮放方法，它使用一個簡單而高效的複合係數來從depth, width, resolution 三個維度放大網絡，不會像傳統的方法那樣任意縮放網絡的維度，基於神經結構搜索技術可以獲得最優的一組參數(複合係數)。從下圖可看出，EfficientNet不僅比別的網絡快很多，而且精度也更高。

Efficientnet和其他網絡對比在imagenet上的參數與精度曲線

複合模型擴張方法

問題定義：我們將整個卷積網絡稱爲 N，它的第 i 個卷積層可以表示爲：

, 代表輸入張量，代表輸出張量

整個卷積網絡由 k 個卷積層組成，可以表示爲：

整個卷積網絡N的表示

但是在實際中，通常會將多個結構相同的卷積層稱爲一個 stage，例如 ResNet 有5 個 stage，每個 stage 中的卷積層結構相同(除了第一層爲降採樣層)，以 stage 爲單位可以將卷積網絡 N 表示爲：

以 stage 爲單位可以將卷積網絡 N 的表示

其中，代表第i層的輸入張量的維度（爲了方便敘述忽略 batch 這個維度），下標 i(從 1 到 s) 表示的是 stage 的序號，表示第 i 個 stage ，它由卷積層重複次構成。

與通常的ConvNet設計不同，通常的ConvNet設計主要關注尋找最佳的網絡層，模型縮放嘗試擴展網絡長度（）、寬度（）和/或分辨率（），而不改變基線網絡中預定義的（我個人在這裏的理解是指kernel size等每一個層內的參數，因爲模型縮放只對depth, width, resolution進行組合調整，不對每一個層內具體的方式做改變）。

所以，優化目標就是在資源有限的情況下，要最大化 Accuracy, 優化目標的公式表達如下：

優化目標定義

作者發現，更大的網絡具有更大的寬度、深度或分辨率，往往可以獲得更高的精度，但精度增益在達到80%後會迅速飽和，這表明了只對單一維度進行擴張的侷限性，實驗結果如下圖：

只對單一維度進行擴張的侷限性

作者指出，模型擴張的各個維度之間並不是完全獨立的，比如說，對於更大的分辨率圖像，應該使用更深、更寬的網絡，這就意味着需要平衡各個擴張維度，而不是在單一維度張擴張。

如下圖所示，直線上的每個點表示具有不同寬度係數（w）的模型。第一個基線網絡（d=1.0，r=1.0）有18個卷積層，分辨率224x224，而最後一個基線（d=2.0，r=1.3）有36個卷積層，分辨率299x299。這個圖說明了一個問題，爲了追求更好的精度和效率，在ConvNet縮放過程中平衡網絡寬度、深度和分辨率的所有維度是至關重要的。

所以本文提出了複合擴張方法，這也是文章核心的地方，( )是我們需要求解的一組參數，如下圖公式，帶約束的最優參數求解。( ) 分別衡量着depth, width和 resolution的比重，其中在約束上會有平方，是因爲如果增加寬度或分辨率兩倍，其計算量是增加四倍，但是增加深度兩倍，其計算量只會增加兩倍。

求解方式：

固定公式中的φ=1，然後通過網格搜索（grid search）得出最優的α、β、γ，得出最基本的模型EfficientNet-B0.
固定α、β、γ的值，使用不同的φ，得到EfficientNet-B1, ..., EfficientNet-B7

φ的大小對應着消耗資源的大小，相當於：

當φ=1時，得出了一個最小的最優基礎模型；
增大φ時，相當於對基模型三個維度同時擴展，模型變大，性能也會提升，資源消耗也變大。

對於神經網絡搜索，作者使用了和 MnasNet: Platform-awareneural architecture search for mobile 一樣的搜索空間和優化目標。

Efficientnet網絡結構：

作者指明，由於模型縮放不會改變基線網絡中的層，但是擁有一個良好的基線網絡也是至關重要的。我們將使用現有的基礎網絡來評估我們的縮放方法，但是爲了更好地證明我們的縮放方法的有效性，我們還開發了一種新的mobile-size baseline，稱爲 EfficientNet，EfficientNet-B0的網絡結構如下 (類似於 MobileNetV2 和 MnasNet)：

實驗結果

Efficientnet系列跟其他網絡的對比（計算量/精度曲線）

對現有的基礎網絡採用文章提出的方法進行模型擴張，然後跟用單一維度對該模型擴張進行對比

Efficientnet系列跟其他的基礎網絡和方法在imagenet上的對比

作者還在遷移學習上做了實驗，表明 EfficientNet 也是有效的。

下面介紹另一篇論文，在提出EfficientDet，作者接着又提出了EfficientDet

論文：EfficientDet: Scalable and Efficient Object Detection

代碼：xuannianz/EfficientDet

文章摘要

模型效率在計算機視覺中的地位越來越重要，本文系統地研究了用於目標檢測的各種神經網絡結構設計選擇，並提出了幾種提高效率的關鍵優化方法。首先，我們提出了一個加權的雙向特徵金字塔網絡（BiFPN），該網絡允許簡單快速的多尺度特徵融合；其次，我們提出了一種複合尺度擴張方法，該方法可以統一地對所有主幹網、特徵網絡和預測網絡的分辨率、深度和寬度進行縮放。基於這些優化，我們開發了一個新的對象檢測器家族，稱爲EfficientDet。

文章動機：

１、如何高效的進行多尺度特徵融合(efficient multi-scale feature fusion)：提到多尺度融合，在融合不同的輸入特徵時，以往的研究（FPN以及一些對FPN的改進工作）大多隻是沒有區別的將特徵相加；然而，由於這些不同的輸入特徵具有不同的分辨率，我們觀察到它們對融合輸出特徵的貢獻往往是不平等的，爲了解決這一問題，作者提出了一種簡單而高效的加權（類似與attention）雙向特徵金字塔網絡（BiFPN），它引入可學習的權值來學習不同輸入特徵的重要性，同時反覆應用自頂向下和自下而上的多尺度特徵融合。

2、如何對模型進行擴張（參考上文 EfficientNet ，同時考慮depth、width和resolution）

作者基於EfficientNet, 提出對檢測器的backbone等網絡進行模型縮放，並且結合提出的BiFPN提出了新的檢測器家族，叫做EfficientDet。本文提出的檢測器的主要遵循one-stage的設計思想，通過優化網絡結構，可以達到更高的效率和精度。