卷積神經網絡必讀的40篇經典論文，包含檢測/識別/分類/分割多個領域

轉載自：極市平臺

作爲深度學習的代表算法之一，卷積神經網絡（Convolutional Neural Networks，CNN）在計算機視覺等領域上取得了當前最好的效果。

1998 年，Yann LeCun提出LeNet-5，將 BP 算法應用到神經網絡結構的訓練上，形成當代CNN雛形。2012 年，在 Imagenet 圖像識別大賽中，Hinton 組的論文中提到的 Alexnet 引入了全新的深層結構和 dropout 方法，將 error rate 從 25% 以上提升到了 15%，一舉顛覆了圖像識別領域，CNN自此聲名大噪並蓬勃發展。在 2016 年，CNN 再次給人們一個驚喜：谷歌研發的基於深度神經網絡和搜索樹的智能機器人“AlphaGo”在圍棋上擊敗人類。隨後利用 ResNet 和 Faster-RCNN 的思想，一年後的 Master 完虐了所有人類圍棋高手，達到神一般的境界。

可以說，卷積神經網絡是深度學習算法應用最成功的領域之一。

而研讀卷積神經網絡的經典論文，對於學習和研究卷積神經網絡必不可缺。根據相關算法，科技情報大數據挖掘與服務系統平臺AMiner從人工智能領域國際頂會/期刊中提取出“卷積神經網絡”相關關鍵詞，篩選推薦了 40 篇經典必讀論文，內容包含CNN在檢測/識別/分類/分割/跟蹤等領域的理論與實踐，並按被引用量進行了排序整理。

這 100 篇論文大多發表於 2015 年至 2019 年間，主要發表在 CVPR、ICCV、ICML、NeuIPS 等計算機視覺頂級學術會議上。在該領域發表論文最多的學者中，“神經網絡之父”、“深度學習鼻祖”Hinton 與 Bengio 雙雙上榜，爲深度學習研究持續貢獻了力量。

下文將對這100篇論文進行按被引用量的排序，並對部分作簡單評述：

*1. Fully Convolutional Networks for Semantic Segmentation ｜CVPR2015｜引用量：13136

作者信息：UC Berkeley｜Jonathan Long，Evan Shelhamer，Trevor Darrell

本篇論文是神經網絡大神 Jonathan Long 與他的博士同學 Evan Shelhamer、導師 Trevor Darrell 的代表作，獲得了 CVPR 2015 年最佳論文獎。該文的核心貢獻，在於提出了全卷積網絡（FCN）的概念，它是一種可以接受任意大小圖像並輸出與輸入等大的圖像的全卷積神經網絡，針對語義分割訓練一個端到端，點對點的網絡，達到了 state-of-the-art。這是第一次訓練端到端的 FCN，用於像素級的預測；也是第一次用監督預訓練的方法訓練 FCN。

*2. Convolutional Neural Networks for Sentence Classification｜EMNLP 2014｜引用量：5978
論文信息：紐約大學｜Yoon Kim

*3. Large-Scale Video Classification with Convolutional Neural Networks｜CVPR2014｜引用量：4145
作者信息：谷歌，斯坦福大學｜Andrej Karpathy，George Toderici，Sanketh Shetty，Thomas Leung，Rahul Sukthankar，Li Fei-Fei

該文研究了多種方法來擴展 CNN 在時域上的連通性，以利用局部時空信息，作者提出一個多分辨率、新穎的框架的方式來加快訓練（計算效率）。文章的貢獻點主要有三個：

1.將 CNN 拓展，用於視頻分類；
2.使用兩種不同的分辨率的幀分別作爲輸入，輸入到兩個 CNN 中，在最後的兩個全連接層將兩個 CNN 統一起來；兩個流分別是低分辨率的內容流和採用每一個幀中間部分的高分辨率流；

3.將從自建數據庫學習到的 CNN 結構遷移到 UCF-101 數據集上面。

*4. How transferable are features in deep neural networks? ｜NIPS 2014｜引用量：3414
作者信息：卡耐基梅隆大學，懷俄明大學，蒙特利爾大學｜Jason Yosinski，Jeff Clune，Yoshua Bengio，Hod Lipson

本文是 Bengio 團隊關於遷移學習（Transfer Learning）的研究，文章實驗了深度神經網絡中不同層神經元的泛化性能和特異性，研究了模型的遷移能力兩個主要影響因素，對於研究深度神經網絡特徵的可遷移性具有重要意義。

*5. Learning Spatiotemporal Features with 3D Convolutional Networks｜ICCV2015｜引用量：2711

作者信息：Facebook，達特茅斯學院｜Du Tran，Lubomir Bourdev，Rob Fergus，Lorenzo Torresani，Manohar Paluri

這篇文章介紹了在大規模有監督的視頻數據集下,訓練出了一種簡單且高效的三維卷積神經網絡的方法來學習時空特徵。

3D 卷積網絡的優勢有三點：

1）同2D 卷積網絡相比，3D 卷積網絡更適合時空特徵的學習；

2）3D 卷積網絡的每一層的卷積核的結構是齊次的，並且在很多結構中都適用；

3）將學到的特徵成爲 C3D，帶有一個簡單的線性分類器，在 4 個不同的 benchmarks 上測試都實現了最好的性能，並且在另外的 2 個 benchmarks 上與目前的最好的方法相媲美。

*6. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation｜引用量：2373
作者信息：劍橋大學｜Vijay Badrinarayanan，Alex Kendall，Roberto Cipolla

本文提出了一種用於像素級語義分割的深度全卷積神經網絡結構 SegNet。SegNet 的創新點在於譯碼器對輸入的低分辨率特徵圖的上採樣處理方式。具體來講，解碼器利用在 max-pooling 過程中計算的池化 indices，計算對應的編碼器的非線性上採樣。這個操作就省去了上採樣過程的學習。上採樣後的 map 是稀疏的，再用可學習的 filter 通過卷積計算稠密的特徵圖。

*7. XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks｜ECCV2016｜引用量：1713
作者信息：艾倫人工智能研究所，華盛頓大學｜Mohammad Rastegari，Vicente Ordonez，Joseph Redmon，Ali Farhadi

該文針對標準卷積神經網絡提出了兩種有效的近似網絡：二元權重網絡和 XNOR 網絡。二元權重網絡中，卷積核用兩個值來近似表示，從而節省 32 倍的存儲空間。在 XNOR 網絡中，卷積核和卷積層輸入都是用兩個值（1 和 -1）表示的。XNOR 網絡主要使用二元運算進行卷積運算。這使得卷積操作速度提高了 58 倍，節省了 32 倍的內存。

*8. Character-level Convolutional Networks for Text Classification｜NIPS2015｜引用量：1701
作者信息：紐約大學｜Xiang Zhang，Junbo Zhao，Yann LeCun

*9. Towards End-To-End Speech Recognition with Recurrent Neural Networks｜ICML2014｜引用量：1339
作者信息：DeepMind，多倫多大學｜Alex Graves，Navdeep Jaitly

*10. DRAW: A Recurrent Neural Network For Image Generation｜ICML 2015｜引用量：1186
作者信息：Google DeepMind｜Karol Gregor,Ivo Danihelka,Alex Graves,Danilo Jimenez Rezende,Daan Wierstra

本文介紹了一種可應用於圖像生成的 Deep Recurrent Attentive Writer（DRAW）神經網絡模型，此模型能夠生成高質量的自然圖像，並提高了在 MNIST 數據集上生成模型表現的最好水平。此外，使用 SVHN 數據集訓練的 DRAW 模型生成的圖片，裸眼無法分辨其與真實數據的區別。

*11. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps｜ICLR2013｜引用量：1170
作者：Karen Simonyan,Andrea Vedaldi,Andrew Zisserman

*12. Neural Collaborative Filtering｜引用量：1141
作者：Xiangnan He,Lizi Liao,Hanwang Zhang,Liqiang Nie,Xia Hu,Tat-Seng Chua

*13. Image Style Transfer Using Convolutional Neural Networks｜CVPR2016｜引用量：1107
作者：Leon A. Gatys,Alexander S. Ecker,Matthias Bethge

*14. Image Super-Resolution Using Deep Convolutional Networks｜IEEE2016｜引用量：1035
作者：Chao Dong,Chen Change Loy,Kaiming He,Xiaoou Tang

*15. Distilling the Knowledge in a Neural Network｜引用量：1021
作者：Geoffrey E. Hinton,Oriol Vinyals,Jeffrey Dean

*16. Recurrent Convolutional Neural Networks for Text Classification」AAAI2015｜引用量916
作者：Siwei Lai,Liheng Xu,Kang Liu,Jun Zhao

*17. Squeeze-and-Excitation Networks｜CVPR2018｜引用量886
作者：Jie Hu,Li Shen,Gang Sun

*18. Convolutional Sequence to Sequence Learning｜ICML2017｜引用量：777
作者：Jonas Gehring,Michael Auli,David Grangier,Denis Yarats,Yann N. Dauphin

*19. Non-local Neural Networks｜CVPR2018｜引用量：751
作者：Xiaolong Wang,Ross B. Girshick,Abhinav Gupta,Kaiming He

*20. Residual Attention Network for Image Classification｜CVPR2017｜引用量：568
作者：Fei Wang,Mengqing Jiang,Chen Qian,Shuo Yang,Cheng Li,Honggang Zhang,Xiaogang Wang,Xiaoou Tang

*21. Image Super-Resolution via Deep Recursive Residual Network｜CVPR2017｜引用量559
作者：Ying Tai,Jian Yang,Xiaoming Liu

*22. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization｜ICCV2015｜引用量503
作者：Alex Kendall,Matthew Grimes,Roberto Cipolla

*23. Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks｜引用量：483
作者：Aliaksei Severyn,Alessandro Moschitti

*24. Deformable Convolutional Networks｜ICCV2017｜引用量：476
作者：Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,Guodong Zhang,Han Hu,Yichen Wei

*25. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting｜引用量399
作者：Xingjian Shi,Zhourong Chen,Hao Wang,Dit-Yan Yeung,Wai-Kin Wong,Wang-chun Woo

*26. Fast Training of Convolutional Networks through FFTs｜引用量：385
作者：Michaël Mathieu,Mikael Henaff,Yann LeCun

*26. Large Kernel Matters - Improve Semantic Segmentation by Global Convolutional Network｜CVPR2017｜引用量377
作者：Chao Peng,Xiangyu Zhang,Gang Yu,Guiming Luo,Jian Sun

*27. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition｜AAAI2018｜引用量353
作者：Sijie Yan,Yuanjun Xiong,Dahua Lin

*28. The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation｜CVPR2017｜引用量：333
作者：Simon Jégou,Michal Drozdzal,David Vázquez,Adriana Romero,Yoshua Bengio

*29. Multi-Oriented Text Detection with Fully Convolutional Networks｜CVPR2016｜引用量：313
作者：Zheng Zhang,Chengquan Zhang,Wei Shen,Cong Yao,Wenyu Liu,Xiang Bai

*30. Learning Efficient Convolutional Networks through Network Slimming｜ICCV2017｜引用量310
作者：Zhuang Liu,Jianguo Li,Zhiqiang Shen,Gao Huang,Shoumeng Yan,Changshui Zhang

*31. Multi-View 3D Object Detection Network for Autonomous Driving｜CVPR2017｜引用量：276
作者：Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,Tian Xia

*32. Very Deep Convolutional Networks for End-to-End Speech Recognition｜ICASSP2017｜引用量：242
作者：Yu Zhang,William Chan,Navdeep Jaitly

*33. A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification｜引用量：229
作者：Yingjie Zhang,Byron C. Wallace

*34. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks｜ACL2015｜引用量：212
作者：Yubo Chen,Liheng Xu,Kang Liu,Daojian Zeng,Jun Zhao

*35. ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression｜ICCV2017｜引用量208
作者：Jian-Hao Luo,Jianxin Wu,Weiyao Lin

*36. Relation Extraction: Perspective from Convolutional Neural Networks｜引用量173
作者：Thien Huu Nguyen,Ralph Grishman

*37. DCAN: Deep Contour-Aware Networks for Accurate Gland Segmentation｜CVPR2016｜引用量：166
作者：Hao Chen 0011,Xiaojuan Qi,Lequan Yu,Pheng-Ann Heng

*38. Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition｜CVPR2017｜引用量：159
作者：Jianlong Fu,Heliang Zheng,Tao Mei

*39. Interpretable Convolutional Neural Networks｜CVPR2018｜引用量：154
作者：Quanshi Zhang,Ying Nian Wu,Song-Chun Zhu

*40. A systematic study of the class imbalance problem in convolutional neural networks｜引用量：148
作者：Mateusz Buda,Atsuto Maki,Maciej A. Mazurowski

卷積神經網絡必讀的40篇經典論文，包含檢測/識別/分類/分割多個領域

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

一位中國博士把整個 CNN 都可視化了，可交互有細節，每次卷積 ReLU 池化都清清楚楚...

5 行代碼實現圖像分割

“雙一流”本科獎勵1.5萬，碩士3萬！這座城市全面放寬高校畢業生落戶限制！...

【Seaborn繪圖】深度強化學習實驗中的paper繪圖方法

數學推導+純Python實現機器學習算法25：kmeans聚類

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結