必讀論文 | 卷積神經網絡百篇經典論文推薦

作爲深度學習的代表算法之一,卷積神經網絡(Convolutional Neural Networks,CNN)在計算機視覺、分類等領域上,都取得了當前最好的效果。

卷積神經網絡的前世今生

卷積神經網絡的發展,最早可以追溯到1962年,Hubel和Wiesel對貓大腦中的視覺系統的研究。1998年,著名計算機科學家Yann LeCun在論文Gradient-Based Learning Applied to Document Recognition中提出了LeNet-5,將BP算法應用到神經網絡結構的訓練上,形成了當代卷積神經網絡的雛形。直到2012年,AlexNet網絡出現之後,神經網絡開始嶄露頭角。在Imagenet圖像識別大賽中,Hinton組的論文ImageNet Classification with Deep Convolutional Neural Networks中提到的Alexnet引入了全新的深層結構和dropout方法,一下子把error rate從25%以上提升到了15%,一舉顛覆了圖像識別領域。此後卷積神經網絡聲名大噪並蓬勃發展,廣泛用於各個領域,在很多問題上都取得了當前最好的性能。2015年深度學習領域的三巨頭LeCun、Bengio、Hinton在Nature上發表一篇綜述文章Deep Learning,系統地總結了深度學習的發展前世今生。在2016年,CNN再次給人們一個驚喜:谷歌研發的基於深度神經網絡和搜索樹的智能機器人“AlphaGo”在圍棋上擊敗了人類,更驚喜的是谷歌在Nature專門發表了一篇文章來解釋AlphaGo,文章名字爲Mastering the game of Go with deep neural networks and tree search。隨後利用了ResNet和Faster-RCNN的思想,一年後的Master則完虐了所有人類圍棋高手,達到神一般的境界,人類棋手毫無勝機。後來又有很多復現的開源圍棋AI,每一個都能用不大的計算量吊打所有的人類高手。

可以說,卷積神經網絡是深度學習算法應用最成功的領域之一。

卷積神經網絡百篇經典論文

研讀卷積神經網絡的經典論文,對於學習和研究卷積神經網絡必不可缺。根據相關算法,AMiner從人工智能領域國際頂會/期刊中提取出“卷積神經網絡”相關關鍵詞,篩選並推薦了100篇經典必讀論文。這100篇論文大多發表於2015年至2019年間,主要發表在CVPR、ICCV、ICML、NeuIPS等計算機視覺頂級學術會議上。在該領域發表論文最多的學者中,“神經網絡之父”、“深度學習鼻祖”Hinton與Bengio雙雙上榜,爲深度學習研究持續貢獻了力量。按照這100篇經典論文的被引用量,我們挑選了其中的TOP10作簡單評述。

1. Fully Convolutional Networks for Semantic Segmentation(CVPR2015)

引用量:13136

論文作者:Jonathan LongEvan ShelhamerTrevor Darrell

作者單位:UC Berkeley

卷1.png

本篇論文是神經網絡大神Jonathan Long與他的博士同學 Evan Shelhamer、導師Trevor Darrell的代表作,獲得了 CVPR 2015 年最佳論文獎。該文的核心貢獻,在於提出了全卷積網絡(FCN)的概念,它是一種可以接受任意大小圖像並輸出與輸入等大的圖像的全卷積神經網絡。CNN近年來發展迅速,在圖像領域更是主流方法,驅動着物體檢測、關鍵點檢測等的發展,但CNN對於圖像語義分割卻在時間和精度方面都表現不好。本文提出了FCN,針對語義分割訓練一個端到端,點對點的網絡,達到了state-of-the-art。這是第一次訓練端到端的FCN,用於像素級的預測;也是第一次用監督預訓練的方法訓練FCN。

2. Convolutional Neural Networks for Sentence Classification(EMNLP 2014)

引用量:5978

論文作者:Yoon Kim

作者單位:紐約大學

卷3.png

2012年在深度學習和卷積神經網絡成爲圖像任務明星之後, 2014年TextCNN誕生於世,成爲了CNN在NLP文本分類任務上的經典之作。TextCNN提出的目的在於,希望將CNN在圖像領域中所取得的成就複製於自然語言處理NLP任務中。

TextCNN是一種採用卷積神經網絡(CNN)提取文本n-gram特徵,最大池化,全連接然後進行分類的一種新型模型。它在當時對文本分類SVM老大的位置提出了挑戰,雖然當時TextCNN模型效果沒有完全超過SVM,但CNN的熱潮使得TextCNN極受追捧,成爲NLP文本分類任務的經典模型。

3. Large-Scale Video Classification with Convolutional Neural Networks(CVPR2014)

引用量:4145

論文作者:Andrej KarpathyGeorge TodericiSanketh ShettyThomas LeungRahul SukthankarLi Fei-Fei

作者單位:谷歌,斯坦福大學

卷33.png

該文研究了多種方法來擴展CNN在時域上的連通性,以利用局部時空信息,作者提出一個多分辨率、新穎的框架的方式來加快訓練(計算效率)。

文章的貢獻點主要有三個:

1.將CNN拓展,用於視頻分類;

2.使用兩種不同的分辨率的幀分別作爲輸入,輸入到兩個CNN中,在最後的兩個全連接層將兩個CNN統一起來;兩個流分別是低分辨率的內容流和採用每一個幀中間部分的高分辨率流;

3.將從自建數據庫學習到的CNN結構遷移到UCF-101數據集上面。

作者提出的模型與單幀模型相比性能有了顯著提升,爲此作者進一步研究了其中表現最佳的模型的泛化能力,即通過在UCF-101數據集上重新訓練頂層,相比基準模型性能顯著改善。

4. How transferable are features in deep neural networks? (NIPS 2014)

引用量:3414

論文作者:Jason YosinskiJeff CluneYoshua BengioHod Lipson

作者單位:卡耐基梅隆大學,懷俄明大學,蒙特利爾大學

卷4.png

本文是Bengio團隊關於遷移學習(Transfer Learning)的研究,文章通過研究特徵的可遷移性來對這個從泛化的特化的過程進行評估,對於研究深度神經網絡特徵的可遷移性具有重要意義。本文實驗了深度神經網絡中不同層神經元的泛化性能和特異性,模型的遷移能力主要受到兩個因素的影響:1)深度模型在越深的層,其專業性(specialization)越強,即越只能完成特定任務,這使得深度模型學習到的深層特徵遷移性很差;2)模型在優化過程中,層與層之間的參數的優化是有關聯性,當固定淺層的權值,來訓練高層權值時,會打破這種關聯性,使得模型的能力變差,泛化能力也變差。上述兩個問題在深度神經網絡的不同層發生佔比不一樣。文章還證明了利用訓練好的遷移特徵,初始化一個新網絡,不論初始化幾層,都能夠對增強模型起到最終的效果。

5. Learning Spatiotemporal Features with 3D Convolutional Networks(ICCV2015)

引用量:2711

論文作者:Du TranLubomir BourdevRob FergusLorenzo TorresaniManohar Paluri

作者單位:Facebook,達特茅斯學院

卷5.png

這篇文章介紹了在大規模有監督的視頻數據集下,訓練出了一種簡單且高效的三維卷積神經網絡的方法來學習時空特徵。3D ConvNets的特徵將與視頻中的對象、場景和動作相關的信息封裝起來,使其對各種任務有用,而無需爲每個任務分配模型。3D卷積網絡的優勢有三點:1)同2D卷積網絡相比,3D卷積網絡更適合時空特徵的學習;2)3D卷積網絡的每一層的卷積核的結構是齊次的,並且在很多結構中都適用; 3)將學到的特徵成爲C3D,帶有一個簡單的線性分類器,在4個不同的benchmarks上測試都實現了最好的性能,並且在另外的2個benchmarks上與目前的最好的方法相媲美。

6. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

引用量:2373

論文作者:Vijay BadrinarayananAlex KendallRoberto Cipolla

作者單位:劍橋大學

卷6.png

本文提出了一種用於像素級語義分割的深度全卷積神經網絡結構SegNet。SegNet的創新點在於譯碼器對輸入的低分辨率特徵圖的上採樣處理方式。具體來講,解碼器利用在max-pooling過程中計算的池化indices,計算對應的編碼器的非線性上採樣。這個操作就省去了上採樣過程的學習。上採樣後的map是稀疏的,再用可學習的filter通過卷積計算稠密的特徵圖。作者比較了文中的結構與FCN、DeepLab-LargeFOV和DeconvNet結構。由於SegNet的設計初衷來源於場景理解(scene understanding),因此在內存和計算時間上效率很高,可學習參數量也比其他結構小,可以用SGD端到端訓練。在道路場景和SUN RGB-D室內場景下進行了排名。

7. XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks(ECCV2016)

引用量:1713

論文作者:Mohammad RastegariVicente OrdonezJoseph RedmonAli Farhadi

作者單位:艾倫人工智能研究所,華盛頓大學

卷7.png

該文針對標準卷積神經網絡提出了兩種有效的近似網絡:二元權重網絡和XNOR網絡。二元權重網絡中,卷積核用兩個值來近似表示,從而節省32倍的存儲空間。在XNOR網絡中,卷積核和卷積層輸入都是用兩個值(1和-1)表示的。 XNOR網絡主要使用二元運算進行卷積運算。這使得卷積操作速度提高了58倍,節省了32倍的內存。 XNOR網絡實現了在CPU(而不是GPU)上實時運行最先進網絡的可能。我們的二元權值網絡簡單、準確、高效,並且能夠處理具有挑戰性的視覺任務。我們在ImageNet分類任務上評估我們的方法。 AlexNet二元權值版本的分類準確性與全精度AlexNet相同。我們將我們的方法與最近的網絡二值化方法BinaryConnect和BinaryNets進行比較,並且在ImageNet上以大幅優勢勝過這些方法,超過了top-1 16%的精度。

8. Character-level Convolutional Networks for Text Classification(NIPS2015)

引用量:1701

論文作者:Xiang ZhangJunbo ZhaoYann LeCun

作者單位:紐約大學

卷8.png

在這篇論文中,作者將字符級的文本當作原始信號,並且使用一維的卷積神經網絡來處理它。研究表明,單詞嵌入表示可以直接用於卷積神經網絡,而無需考慮語言的語法或語義結構。作者發現,當訓練大規模數據集時,深度卷積神經網絡並不需要單詞層面的意義(包括語言的語法和語義),這是非常激動人心的工程簡化,因爲不管什麼語言,它都是由字符組成的,因此這對於構建跨語言的系統至關重要。還有一個好處,對於異常的字符組成(比如拼寫錯誤)和表情符,該模型依然能夠應付。

9. Towards End-To-End Speech Recognition with Recurrent Neural Networks(ICML2014)

引用量:1339

論文作者:Alex GravesNavdeep Jaitly

作者單位:DeepMind,多倫多大學

卷9.png

本文提出了一種語音識別系統,該系統不需要中間語音表示,直接用文本對音頻數據進行轉錄。該系統是基於深度雙向LSTM遞歸神經網絡結構和連接主義者的時間分類目標函數相結合的。引入了目標函數的修正,訓練網絡最小化任意轉錄損失函數的期望。這允許對單詞錯誤率進行直接優化,即使在沒有詞彙或語言模型的情況下也是如此。該系統在沒有先驗語言信息的《華爾街日報》語料庫中實現了27.3%的錯誤率,在只使用允許單詞的詞典的情況下實現了21.9%的錯誤率,在使用trigram語言模型的情況下實現了8.2%的錯誤率。將網絡與基線系統相結合進一步將錯誤率降低到6.7%。

10. DRAW: A Recurrent Neural Network For Image Generation(ICML 2015)

引用量:1186

論文作者:Karol Gregor,Ivo Danihelka,Alex Graves,Danilo Jimenez Rezende,Daan Wierstra

作者單位:Google DeepMind

卷10.png

本文出自Google DeepMind實驗室,介紹了一種可應用於圖像生成的Deep Recurrent Attentive Writer(DRAW)神經網絡模型,此模型能夠生成高質量的自然圖像,並提高了當前在MNIST數據集上生成模型表現的最好水平。此外,使用SVHN數據集訓練的DRAW模型生成的圖片,裸眼無法分辨其與真實數據的區別。

更多卷積神經網絡必讀論文請查閱”必讀論文“模塊“

相關閱讀

必讀論文 | 20篇強化學習研究必讀論文速遞

必讀論文 | 知識圖譜必讀論文10篇

必讀論文 | 機器學習必讀論文20篇

必讀論文 | 信息檢索與推薦必讀論文10篇

必讀論文 | COVID-19必讀論文20篇

必讀論文 | 20 篇聊天機器人領域必讀論文速遞

必讀論文 | 百篇最值得一讀的“認知圖譜”經典論文

AMiner學術搜索服務全新上線 | “一鍵”幫你搞定論文綜述,帶你研讀AI相關Topic百篇經典論文

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章