PaddleClas-圖像分類中的常用服務器端系列模型

簡介

  • 這裏主要介紹PaddleClas中已經開源的常用系列模型,PaddleClas的github repo:https://github.com/PaddlePaddle/PaddleClas
  • PaddleClas中包含了ResNet、HRNet、Inception、Res2Net等系列模型,這篇博客主要是介紹其主要系列模型。
  • AlexNet、VGG這些網絡其實都屬於十分經典的網絡,但是由於這些網絡最近用的已經越來越少了,因此在這裏也沒有進行展開。

ResNet系列

  • 之前的深度神經網絡,比如AlexNet、VGG等等,其實已經對傳統的圖像分類方法形成了一次降維打擊,而ResNet則是對其之前的深度神經網絡再次形成了降維打擊;基於一個152層的ResNet模型,它把ImageNet上的識別錯誤率再次降低了幾乎一半。其核心結構就是右邊所示的殘差塊,網絡只需要學習殘差項,這解決了之前過深的網絡在訓練時難以收斂的問題。

在這裏插入圖片描述
上面這張圖其實也就是給出了ILSVRC圖像分類數據集的top-1 error指標,resnet出來時,遠超其他模型的結果。

  • 下面給出了ResNet的核心結構:殘差模塊
    在這裏插入圖片描述

  • 在殘差結構中,一個支路經過各種卷積運行,另一個支路直接連接到輸出,這兩個支路相加之後得到輸出,相當於卷積計算的支路只需要計算殘差項,這大大降低了模型訓練過程中的學習難度。下面也給出了ResNet18的結構。

在這裏插入圖片描述

  • 上面是標準的ResNet結構,李沐大神及其團隊在後來對ResNet做了一系列的改進。下面給出了最左邊是最開始的ResNet-Va結構,Vb對這個左邊的特徵變換通路的降採樣卷積做了調整,把降採樣的步驟從最開始的第一個1x1卷積調整到中間的3x3卷積中;Vc結構則是將最開始這個7x7的卷積變成3個3x3的卷積,在感受野不變的情況下減少了存儲;而Vd是修改了降採樣殘差模塊右邊的特徵通路。把降採樣的過程由平均池化這個操作去替代了,這一系列的改進,幾乎沒有帶來新增的預測耗時,結合適當的訓練策略,比如說標籤平滑以及mixup這種數據增廣方式,精度可以提升高達2.5%。

在這裏插入圖片描述
更多關於改進結構的描述,可以參考這篇論文:https://arxiv.org/abs/1812.01187

ResNet改進版-ResNeXt、SENet、Res2Net等

  • 之前的殘差結構中,在bottleneck計算部分,輸入是全部經過一個統一的轉換過程,而ResNeXt中,作者是將輸入拆分爲多個分支,讓特徵之間相互解耦,每個分支都採用相同的拓撲結構進行計算,最終聚合得到輸出;而SENEt則是考慮到了不同特徵點的重要程度並不相同,網絡需要去學習並強化重要的特徵,而弱化非重要的特徵,這也就是我們常說的注意力機制。SENet中是引入了一個額外分支,去計算特徵圖中的每個點的重要程度,從而實現剛纔說的區分重要和非重要的特徵。Res2Net則是在殘差結構中添加了類似殘差的結構,融合多尺度的特徵,增加了每個網絡層的感受野,從而使得網絡可以很好地處理多尺度的圖像分類問題。
  • 下面給出了這3個結構的核心特徵:

在這裏插入圖片描述

下面這個圖給出了剛纔介紹的這些模型的預測速度和精度曲線,結合適當的訓練策略,ResNet_vd的優勢還是比較明顯的,當然,在完全相同的情況下,vd結構的ResNet50比vb結構的ResNet在imagenet1k數據集上的精度高0.6%左右,而且預測耗時基本沒有增加,算是比較明顯的改進了。
在這裏插入圖片描述

HRNet

  • 直接放圖,下面給出了HRNet的結構,最主要的特點就是在網絡不斷變深的時候,高分辨率的特徵仍然會一直保留(最上面的黃色特徵通路),然後隔一段就將深層特徵和高分辨率特徵融合一下,這樣的話,網絡會一直同時帶有高分辨率特徵和深層特徵,在一些對分辨率要求很高的任務裏表現是十分出色的,可以說是網絡深度和分辨率兼得的典型網絡設計案例了。

在這裏插入圖片描述

  • 當時這個HRNet網絡出來時,在coco數據集的關鍵點檢測、姿態估計、多人姿態估計這三項任務中,HRNet超越了所有的之前的模型,可以說是將其優勢彰顯得淋漓盡致了。
  • 下面給出了HRNet的預測速度和精度曲線,精度比resnet稍微好一些,但是預測耗時也增加得比較明顯,在一些對分辨率要求比較高的任務裏,還是十分值得一是的。

在這裏插入圖片描述

EfficientNet以及ResNeXt_wsl系列

  • EfficientNet是google公佈的一個新的網絡結構,當時這個網絡出來的時候,基本上是吊打了所有其他的網絡。這個EfficientNet在設計時,主要是考慮到了網絡深度、寬度以及圖像分辨率的這三個方面的平衡,最終衍生出了從小到大共有8個網絡,滿足絕大部分的應用場景。
  • ResNeXt之前已經有過介紹,這個wsl指的是弱監督學習,Facebook通過弱監督學習研究了該系列網絡在ImageNet上的精度上限,採用了9.4億的弱標籤圖片進行訓練,同時使用ImageNet1k數據進行微調,將網絡寬度進一步放大,最終在224的圖像輸入分辨率下,精度可達85.4%,這也是目前該尺度下精度最高的分類網絡。
  • 這個圖中的32x16d的模型精度爲84.2%,同時它的計算耗時相對其他更大的模型結構來說也是可以接受的。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章