CVPR 二十年，影響力最大的 10 篇論文！

點擊上方“AI算法與圖像處理”，選擇加"星標"或“置頂”
重磅乾貨，第一時間送達

極市導讀

超過半數的論文都於近十年發表，來看看是不是你心中的TOP10。

今天，我們將對計算機視覺領域三大頂會之一CVPR在近二十年來中產生的優秀論文進行一個全面的盤點與總結。

CVPR是計算機視覺領域三大頂會中唯一一個年度學術會議。在快速更新迭代的計算機學科中，CVPR成爲了計算機視覺領域的“頂級流量”。而在過去的這些年間，CVPR也有着許多的變化。在十多年前，CVPR不過1500人的參會規模，到了2019年參會人數已經超過了6500人，投稿數量也年年增長。

雖然CVPR每年都會評選出最佳論文，但我們今天將從另一個角度來評選CVPR這二十年來的TOP10。即以Web of Science上顯示的論文的引用量作爲論文影響力的參考，排列出近二十年來影響力最大的十篇論文。接下來我們將依次進行介紹。

TOP10

Rethinking the Inception Architecture for Computer Vision

CVPR 2016

作者：Christian Szegedy，Vincent Vanhoucke，Sergey Ioffe，Jon Shlens，Zbigniew Wojna

機構：Google，倫敦大學

被引頻次：4751

這篇論文又被稱爲Inception-v3，是GoogLeNet（Inception-v1）的延伸。GoogLeNet首次出現於2014年ILSVRC 比賽，並在當年的比賽中獲得了冠軍。Inception-v1的參數量遠小於同期VGGNet，而性能卻與之基本持平。相較於Inception-v1，Inception-v3做出的主要改進則是將卷積進行非對稱拆分，以顯著降低參數量，同時使得空間特徵更爲豐富。

TOP9

Densely Connected Convolutional Networks

CVPR 2017

作者：Gao Huang，Zhuang Liu，Laurens van der Maaten，Kilian Q. Weinberger

機構：康奈爾大學，清華大學，Facebook AI Research

被引頻次：5181

DenseNet也是CVPR2017的最佳論文之一。在當時的神經網絡模型都遇到一個問題：隨着網路層數的加深，訓練過程中的前傳信號和梯度信號在經過很多層之後可能會逐漸消失。而DenseNet的核心思想解決了這一問題。它對前每一層都加一個單獨的 shortcut，使得任意兩層網絡都可以直接“溝通”。

而DenseNet的不足之處在於它的內存佔用十分龐大。但瑕不掩瑜，DenseNet以其極具創新性的思路，不僅顯著減輕了深層網絡在訓練過程中梯度消散而難以優化的問題，同時也取得了非常好的性能。

TOP8

You Only Look Once: Unified, Real-Time Object Detection

CVPR 2016

作者：Joseph Redmon，Santosh Divvala，Ross Girshick，Ali Farhadiq

機構：華盛頓大學，Allen Institute for AI，Facebook AI Research

被引頻次：5295

這一篇論文就是在目標檢測領域大名鼎鼎的YOLO。其最新的版本已經更新到了YOLOv5，且每一代的發佈都能在行業內卷齊新的熱潮。

用YOLO的英文直譯解釋這一方法，就是只需要瀏覽一次就能識別出圖中的物體的類別和位置。展開來說，YOLO的核心思想就是將目標檢測轉化爲迴歸問題求解，並基於一個單獨的端到端網絡，完成從原始圖像的輸入到物體位置和類別的輸出。這使得網絡結構簡單，且極大提升了檢測速度。由於網絡沒有分支，所以訓練也只需要一次即可完成。之後的很多檢測算法都借鑑了這一思路。

TOP7

Rich feature hierarchies for accurate object detection and semantic segmentation

CVPR 2014

作者：Ross Girshick，Jeff Donahue，Trevor Darrell，Jitendra Malik

機構：加利福尼亞大學伯克利分校

被引頻次：6876

這篇文章的排名在YOLO之前，既合理又巧妙。因爲在YOLO之前，目標檢測領域可以說是RCNN的世界。RCNN是將CNN引入目標檢測的開山之作，它改變了目標檢測領域的主要研究思路。緊隨其後的系列文章，如Fast RCNN和Faster RCNN等，都代表了該領域當時的最高水準。

在RCNN前經典的目標檢測算法是使用滑動窗法依次判斷所有可能的區域，而RCNN則採用Selective Search方法預先提取一系列較可能是物體的候選區域，之後僅在這些候選區域上提取特徵，這使得檢測的速度大大提升。

TOP6

Rapid object detection using a boosted cascade of simple features

CVPR 2001

作者：Paul Viola，Michael Jones

機構：三菱電氣實驗室，康柏劍橋研究實驗室

被引頻次：7033

這篇論文是本次盤點中最先發表的一篇，比其他九篇文章都早了十年左右，它在傳統人臉檢測中具有里程碑意義，因而本文提出的思想聚焦於傳統的目標檢測。

這篇論文主要解決了三個問題：一是減少了計算特徵的時間，二是構建了簡單又很有效的單分支決策樹分類器，最後是從簡單到複雜把多個分類器級聯，對可能包含人臉的區域進行重點檢測，從而顯著提升了檢測速度。

TOP5

Going Deeper with Convolutions

CVPR 2015

作者：Christian Szegedy，Dragomir Anguelov， Dumitru Erhan，Vincent Vanhoucke，Yangqing Jia，Pierre Sermanet，Wei Liu，Scott Reed，Andrew Rabinovich

機構：Google，北卡羅來納大學，密歇根大學

發佈時間：2015年

被引頻次：7269

可能大家已經發現了亮點，這篇論文的系列工作在前面就出現過。這篇論文就是開闢Inception家族，並在CNN分類器發展史上留下濃墨重彩的一筆的GoogLeNet。

在 Inception 出現之前，大部分流行 CNN 是將卷積層不斷堆疊，讓網絡越來越深來得到更好的性能。而GoogLeNet 最大的特點就是使用 Inception 模塊，並設計一種具有優良局部拓撲結構的網絡，對輸入圖像並行地執行多個卷積運算或池化操作，將所有輸出結果拼接爲一個非常深的特徵圖。通過這種方式，GoogLeNet取得了非常驚豔的效果。

TOP4

ImageNet: A Large-Scale Hierarchical Image Database

CVPR 2019

作者：Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，Li Fei-Fei

機構：普林斯頓大學

發佈時間：2009年

被引頻次：8222

ImageNet是AI女神李飛飛團隊構建的計算機視覺領域非常著名的海量的帶標註圖像數據集。它在圖像分類、目標分割和目標檢測中都有着無法撼動的地位。ImageNet從 2007 年開始到 2009 年完成，有超過 1500 萬張圖片。

可以毫不誇張的說，ImageNet 是圖像處理算法的試金石。另外，從 2010 年起，每年 ImageNet 官方會舉辦挑戰賽。Hinton團隊提出的AlexNet也是在2012年的ImageNet挑戰賽上一舉成名，自此深度學習的熱潮被點燃。

TOP3

Fully Convolutional Networks for Semantic Segmentation

CVPR 2015

作者：Jonathan Long，Evan Shelhamer，Trevor Darrell

發佈時間：2015年

被引頻次：9027

FCN在我們之前盤點的圖像分割TOP10中就出現過，並高居第一位。作爲語義分割的開山之作，無論是圖像分割TOP1，還是CVPRTOP3，FCN都是當之無愧的。FCN所提出的全卷積網絡的概念，開創了用FCN做實例和像素級別理解系列方法的先河。後續非常多的方法都受到了FCN的思路啓發。FCN的提出爲目標識別、檢測與分割也都做出了巨大的貢獻。

TOP2

Histograms of oriented gradients for human detection

CVPR 2005

作者：Navneet Dalal，Bill Triggs

被引頻次：13389

這篇論文所提出的方法簡稱HOG，是一種是非常經典的圖像特徵提取方法，在行人識別領域被應用得尤爲多。雖然文章已經發表了十五年，但仍然常常被人們用於最新工作的思路參考。HOG將圖像分成小的連通區域，將它稱爲細胞單元，然後採集細胞單元中各像素點的梯度的或邊緣的方向直方圖，把這些直方圖組合起來就可以構成特徵描述器。

TOP1

Deep Residual Learning for Image Recognition

CVPR2016

作者：Kaiming He，Xiangyu Zhang，Shaoqing Ren，Jian Sun

被引頻次：32065

這篇論文作爲第一名，的確是當之無愧。作爲CVPR2016的最佳論文，它所提出的ResNet不僅在計算機視覺領域，而是在深度學習領域中都帶來了顛覆式影響。

在當年，ResNet橫掃 ImageNet 2015和COCO 榜單。也是從ResNet開始，神經網絡在視覺分類任務上的性能第一次超越了人類。它也讓當時第二次獲得CVPR Best Paper的何愷明正式踏上了大神之路。

最初 ResNet 的設計是用來處理深層 CNN 結構中梯度消失和梯度爆炸的問題，它將輸入從卷積層的每個塊添加到輸出，讓每一層更容易學習恆等映射，並且還減少了梯度消失的問題。而如今，殘差模塊已經成爲幾乎所有 CNN 結構中的基本構造。

最後，我們來進行一下簡要地總結。雖然本次盤點的是20年內CVPRTOP10，但是有超過半數的論文都是在近十年發表的，由此可以窺見深度學習在近年來的飛躍式發展。因此我們可以期待在未來的計算機視覺領域，一定會有更多更強的工作，爲我們的科研與生活帶來更快更好的提升。

參考資料

[1] https://zhuanlan.zhihu.com/p/41691301
[2] https://www.zhihu.com/question/60109389/answer/203099761
[3] https://zhuanlan.zhihu.com/p/31427164
[4] https://zhuanlan.zhihu.com/p/23006190
[5] https://blog.csdn.net/weixin_37763809/article/details/88256828
[6] https://zhuanlan.zhihu.com/p/37505777
[7] https://zhuanlan.zhihu.com/p/77221549
[8] https://www.zhihu.com/question/433702668/answer/1617092684
[9] https://blog.csdn.net/zouxy09/article/details/7929348
[10] https://www.jiqizhixin.com/articles/2020-01-01

  
      
      
      
   
       
       
       個人微信（如果沒有備註不拉羣！）
  
      
      
      
  
      
      
      
   
       
       
       請註明：
   
       
       
       地區+學校/企業+研究方向+暱稱
  
      
      
      
  
      
      
      
   
       
       
       

  
      
      
      


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


    
    
    
 
     
     
     下載3 CVPR2021

    
    
    

    
    
    
 
     
     
     


    
    
    

    
    
    
 
     
     
     在「AI算法與圖像處理」公衆號後臺回覆：
 
     
     
     CVPR
 
     
     
     ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮，告訴大家你也在看

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。