必讀的計算機視覺開創性論文

摘要: 學習計算機視覺必須要看的幾篇論文!

image

從ILSVRC中可以看出,近幾年圖像分類神經網絡架構的錯誤率以驚人的幅度下降

深度學習已經存在了幾十年,Yann Lecun在1998年就發表了一篇關於卷積神經網絡(CNN)的論文。但是直到十年前,深度學習纔開始真正的發展並慢慢成爲人工智能研究的主要焦點領域。這些轉變主要是因爲處理能力(即 GPU)的增強、大量可用性的數據(即Imagenet數據集)以及新的算法和技術。2012年,AlexNet(一種大型深度卷積神經網絡),贏得了年度ImageNet大規模視覺識別挑戰賽(ILSVRC)。

從此以後,CNN的變體開始在ILSVRC中稱霸,並超過人類精確度的水平。

作爲人類,我們很容易理解圖像的內容。例如,在觀看電影時,我們認知一個東西是矮人後,可以輕鬆的去識別其他的矮人。然而,對於一臺機器來說,這項任務極具挑戰性,因爲它在這幅圖中看到的是一組數字。

image

在本篇文章中作者基於以往在深度學習方面的經驗,列出了一些具有啓發性的研究論文,這些論文是任何與計算機視覺相關的人必讀的。

關於圖像分類的開創性研究論文

AlexNet

在2012年的ILSVRC 中,Alex Krizhevsky,IIya Sutskever和Geoffrey Hinton介紹了一種深度卷積神經網絡-AlexNet。在這場比賽中AlexNet的以15.4%的錯誤率拿下榜首,並遠超第二名(第二名的錯誤率是26.2%)。AlexNet的這一傲人成績震撼了整個計算機視覺社區,並使深度學習和CNN得到了很大的重視。

image

這個CNN架構模型清晰地展示了兩個GPU之間的責任劃定:一個GPU運行圖形頂部的圖層部分,另一個運行圖層底部的圖層部分。

這是第一個在ImageNet數據集上表現得非常好的模型,AlexNet奠定了深度學習的基礎。它仍然是關於深度學習中引用次數最多的論文之一,被引用約7000次。

ZFNet

Matthew D Zeiler(Clarifai的創始人)和Rob Fergous奪得了2013年ILSVRC的冠軍,它將錯誤率降至11.2%。ZFNet引入了一種新穎的可視化技術,可以深入瞭解中間要素圖層的功能以及分類器的運行情況,而這些AlexNet都沒有。

image

ZFNet的網絡架構

ZFNet利用被稱爲解卷積網絡(Deconvolutional Networks)的技術檢查不同功能激活以及與輸入空間關係。

VGG網絡

牛津大學的Karen Simonyan和Andrew Zisserman創建了深度CNN,被選爲2014年ISLVRC圖像分類比賽中的第二名。VGG Net表明,通過將深度增加到16-19個重量層可以實現對現有技術配置的顯著改進。

image

VGG網絡的宏觀架構

該架構很容易理解(比GoogleLeNet更爲簡單),但仍然可以表現出最佳的準確性。它的特徵映射現在在轉移學習和其他需要預先訓練的網絡的算法中被大量使用,如大多數生成式對抗網絡(GANs)。

GoogLeNet

2014年ISLVRC的獲獎者Christian Szegedy等提出了一個名爲GoogLeNet的22層神經網絡。這是一種初始模型,鞏固了Google在計算機視覺領域的地位。GoogLeNet將錯誤率下降到6.7%。這種架構的主要特徵在於提高了網絡內部計算資源的利用率。這是通過精心設計實現的,可以在保持計算預算不變的同時增加網絡的深度和寬度。GooLeNet引入了Inception module的概念,並不是所有的事情都是按順序發生的,存在一些並行發生的網絡部分。

image

GoogLeNet架構的示意圖,突出顯示的框是啓動模塊。

值得注意的是,GoogLeNet的錯誤率接近人類的表現。GoogLeNet是第一批將CNN圖層並不總是按順序疊加的概念化模型之一。

RESNET

微軟的ResNet由Kaiming He、Xiangyu Zhang和Shaoqing Ren開發,它是一種學習框架,用於緩解比以前更深的網絡訓練。作者提供了全面的經驗證據,表明這些殘留網絡更容易優化,並且可以通過增加深度提高準確性。

image

ResNet架構中的殘餘塊

ResNet以一種新的152層網絡架構,其錯誤率爲3.57%,超過了人類的性能,通過一個令人難以置信的架構在分類、檢測和本地化領域創造了新的記錄。

Wide ResNets

Sergey Zagoruyko和Nikos Komodakis在2016年發表了這篇論文,對ResNet模塊的架構進行了詳細的實驗研究,在此基礎上他們提出了一種新穎的架構,它可以減少整個網絡的深度並增加殘餘網絡的寬度。

image

作者使用的各種殘餘塊

作者將最終的網絡結構命名爲寬殘差網絡(WRNs)。與ResNet的卷積層相比,Wide ResNet可以具有2-12倍甚至更多的特徵映射。

ResNeXt

ResNeXt在2016年的ILSCRV 中獲得第二名。它是一個簡單的高度模塊化的圖像分類網絡架構。ResNeXt設計產生了一種同構的多分支體系結構,只有少數超參數可供設置。

image

一個ResNeXt塊(右)與一個ResNet塊(左)

這種策略揭示了一個新的維度,作爲除深度和寬度維度以外的一個重要因素,作者將其命名爲“基數”。容量增加時,增加基數比變深或變寬更有效。因此,它的準確性要高於ResNets和Wide ResNets。

DenseNet

密集卷積網絡由Gao Huang, Zhuang Liu,Kilian Q.Weinberger和Laurens van der Maaten在2016年開發,以前饋方式將每層連接到每個其他層。對於每一層,前面所有圖層的特徵映射都被用作輸入,並且它自己的特徵映射被用作所有後續圖層的輸入。

image

一個5層密集塊。每個圖層都將前面的所有要素圖作爲輸入。

DenseNet有幾個引人注目的優點,例如緩解梯度消失問題,加強特徵傳播,鼓勵特徵重用以及大幅度減少參數數量。DenseNet勝過ResNets,同時需要更少的內存和計算來實現高性能。

新的構架具有前景廣闊的未來潛力

CNN的變體可能主宰圖像分類體系結構設計。Attention Modules和SENets將在適當的時候變得更加重要。

SENets

2017年ILSCRV 的獲獎作品Squeeze-and-Excutation Networks(SENet)在比賽中錯誤率爲令人難以置信的2.251%,該作品適用於擠壓、激勵和縮放操作。SENets並沒有爲特徵通道的整合引入新的空間,而是開展了一項新的“特徵重新校準”策略。

image

SENet模型的示意圖:擠壓,激勵和縮放操作

作者模擬了功能通道之間的相互依賴關係。訓練SENet可以自動獲得每個功能通道的重要性,並利用這個來增強有用的功能。

Residual Attention Networks

Residual Attention Network是一種使用注意機制的卷積神經網絡,可以以端到端的訓練方式與先進的前饋網絡架構(state-of-art feed forward network)相結合。注意力殘留學習用於訓練非常深的Residual Attention Networks,這些網絡可以輕鬆擴展到數百層。

image

Residual Attention Network分類插圖:選擇的圖像顯示不同的功能在參與注意網絡中具有不同的對應注意掩碼。天空面具減少了低級別的背景藍色功能。氣球示例蒙版突出顯示高級氣球底部特徵

未來之路

image

今天,1000美元購買的電腦的處理能力是人類大腦容量的1/1000。根據摩爾定律,到2025年我們將達到人類大腦的計算能力,到2050年將達到全人類。人工智能的有效性只會隨着時間的推移而加速。由於數據和處理能力的可用性不再使研究人員退縮,我們可以假設用於圖像分類的深度學習模型的準確性將在適當的時候變得更好。

更多內容掃描二維碼關注

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章