PaddleClas-圖像分類中的常用服務器端系列模型

原創

2020-06-15 08:37

簡介

這裏主要介紹PaddleClas中已經開源的常用系列模型，PaddleClas的github repo：https://github.com/PaddlePaddle/PaddleClas。
PaddleClas中包含了ResNet、HRNet、Inception、Res2Net等系列模型，這篇博客主要是介紹其主要系列模型。
AlexNet、VGG這些網絡其實都屬於十分經典的網絡，但是由於這些網絡最近用的已經越來越少了，因此在這裏也沒有進行展開。

ResNet系列

之前的深度神經網絡，比如AlexNet、VGG等等，其實已經對傳統的圖像分類方法形成了一次降維打擊，而ResNet則是對其之前的深度神經網絡再次形成了降維打擊；基於一個152層的ResNet模型，它把ImageNet上的識別錯誤率再次降低了幾乎一半。其核心結構就是右邊所示的殘差塊，網絡只需要學習殘差項，這解決了之前過深的網絡在訓練時難以收斂的問題。

上面這張圖其實也就是給出了ILSVRC圖像分類數據集的top-1 error指標，resnet出來時，遠超其他模型的結果。

下面給出了ResNet的核心結構：殘差模塊
在殘差結構中，一個支路經過各種卷積運行，另一個支路直接連接到輸出，這兩個支路相加之後得到輸出，相當於卷積計算的支路只需要計算殘差項，這大大降低了模型訓練過程中的學習難度。下面也給出了ResNet18的結構。

上面是標準的ResNet結構，李沐大神及其團隊在後來對ResNet做了一系列的改進。下面給出了最左邊是最開始的ResNet-Va結構，Vb對這個左邊的特徵變換通路的降採樣卷積做了調整，把降採樣的步驟從最開始的第一個1x1卷積調整到中間的3x3卷積中；Vc結構則是將最開始這個7x7的卷積變成3個3x3的卷積，在感受野不變的情況下減少了存儲；而Vd是修改了降採樣殘差模塊右邊的特徵通路。把降採樣的過程由平均池化這個操作去替代了，這一系列的改進，幾乎沒有帶來新增的預測耗時，結合適當的訓練策略，比如說標籤平滑以及mixup這種數據增廣方式，精度可以提升高達2.5%。

更多關於改進結構的描述，可以參考這篇論文：https://arxiv.org/abs/1812.01187

之前的殘差結構中，在bottleneck計算部分，輸入是全部經過一個統一的轉換過程，而ResNeXt中，作者是將輸入拆分爲多個分支，讓特徵之間相互解耦，每個分支都採用相同的拓撲結構進行計算，最終聚合得到輸出；而SENEt則是考慮到了不同特徵點的重要程度並不相同，網絡需要去學習並強化重要的特徵，而弱化非重要的特徵，這也就是我們常說的注意力機制。SENet中是引入了一個額外分支，去計算特徵圖中的每個點的重要程度，從而實現剛纔說的區分重要和非重要的特徵。Res2Net則是在殘差結構中添加了類似殘差的結構，融合多尺度的特徵，增加了每個網絡層的感受野，從而使得網絡可以很好地處理多尺度的圖像分類問題。
下面給出了這3個結構的核心特徵：

下面這個圖給出了剛纔介紹的這些模型的預測速度和精度曲線，結合適當的訓練策略，ResNet_vd的優勢還是比較明顯的，當然，在完全相同的情況下，vd結構的ResNet50比vb結構的ResNet在imagenet1k數據集上的精度高0.6%左右，而且預測耗時基本沒有增加，算是比較明顯的改進了。

直接放圖，下面給出了HRNet的結構，最主要的特點就是在網絡不斷變深的時候，高分辨率的特徵仍然會一直保留（最上面的黃色特徵通路），然後隔一段就將深層特徵和高分辨率特徵融合一下，這樣的話，網絡會一直同時帶有高分辨率特徵和深層特徵，在一些對分辨率要求很高的任務裏表現是十分出色的，可以說是網絡深度和分辨率兼得的典型網絡設計案例了。

當時這個HRNet網絡出來時，在coco數據集的關鍵點檢測、姿態估計、多人姿態估計這三項任務中，HRNet超越了所有的之前的模型，可以說是將其優勢彰顯得淋漓盡致了。
下面給出了HRNet的預測速度和精度曲線，精度比resnet稍微好一些，但是預測耗時也增加得比較明顯，在一些對分辨率要求比較高的任務裏，還是十分值得一是的。

EfficientNet是google公佈的一個新的網絡結構，當時這個網絡出來的時候，基本上是吊打了所有其他的網絡。這個EfficientNet在設計時，主要是考慮到了網絡深度、寬度以及圖像分辨率的這三個方面的平衡，最終衍生出了從小到大共有8個網絡，滿足絕大部分的應用場景。
ResNeXt之前已經有過介紹，這個wsl指的是弱監督學習，Facebook通過弱監督學習研究了該系列網絡在ImageNet上的精度上限，採用了9.4億的弱標籤圖片進行訓練，同時使用ImageNet1k數據進行微調，將網絡寬度進一步放大，最終在224的圖像輸入分辨率下，精度可達85.4%，這也是目前該尺度下精度最高的分類網絡。
這個圖中的32x16d的模型精度爲84.2%，同時它的計算耗時相對其他更大的模型結構來說也是可以接受的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.