深度學習領域,你心目中 idea 最驚豔的論文是哪篇?

點擊上方AI算法與圖像處理”,選擇加"星標"或“置頂


   
   
   

重磅乾貨,第一時間送達

推薦閱讀

31個Python實戰項目教你掌握圖像處理,PDF開放下載

opencv_contrib擴展模塊中文教程pdf,限時領取

來源丨知乎問答(如有侵權請聯繫刪除)
編輯丨極市平臺

導讀

 

深度學習研究中,我們往往會讀到讓自己覺得想法很驚豔的論文,心中對不同的論文也會有一個排名,那麼本文中的提名是你心中的No.1嗎?

科研路上我們往往會讀到讓自己覺得想法很驚豔的論文,心中對不同的論文也會有一個排名,以下介紹了一些知乎作者心中白月光般存在的深度學習領域論文,看看是否你們擁有同樣心目中的The one。

提名一

ResNet和Transformer

作者:王晉東不在家
時至今日,許多大領域都離不開這兩種結構。 Transformer更是從NLP領域走入了CV領域,大有一統天下之勢。
ResNet大道至簡,更傾向於從原來的CNN結構設計出發,通過大量的實驗和分析,添加了skip connection,一招封神。
Transformer則另起爐竈,乾脆完全拋棄了RNN的結構,從根本上嘗試self-attn加全連接層對於序列建模的能力。
今日的你或許通過實驗可以大概搞出來ResNet的skip connection結構,但是能想出來跟transformer一樣完全不用RNN、並能讓這種當時看來“非主流”的結構work的比RNN還好,就能稱得上是天才了。
這其中,固然要有科研的敏銳嗅覺,更多的還是源於超強的代碼能力,以及願意爲你這種嘗試提供資金和設備支持的大環境。
所以說,要想取得絕對的成功, 天時 (CNN與NLP發展的大環境)、 地利 (所在單位的資源投入)、 人和 (老闆與同事的支持),三者缺一不可。

提名二

DUT(視頻增穩)

作者:rainy

來分享一篇小衆方向(視頻增穩/Video Stabilization)的論文,可能不是那種推動領域進步的爆炸性工作,這篇論文我認爲是一篇比較不錯的把傳統方法deep化的工作。

DUT: Learning Video Stabilization by Simply Watching Unstable Videos

https://arxiv.org/pdf/2011.14574.pdf

看樣子應該是投稿CVPR21,已開源。

https://github.com/Annbless/DUTCode

首先介紹一下視頻增穩的定義,如名稱所示,視頻增穩即爲輸入一系列連續的,非平穩(抖動較大)的視頻幀,輸出一系列連續的,平穩的視頻幀。

由於方向有點略微小衆,因此該領域之前的工作(基於深度學習)可以簡單分爲基於GAN的直接生成,基於光流的warp,基於插幀(其實也是基於光流的warp)這麼幾類。這些論文將視頻增穩看做了“視頻幀生成問題”,但是理想的視頻增穩工作應該看做“軌跡平滑”問題更爲合適。

而在深度學習之前劉帥成(http://www.liushuaicheng.org/)大神做了一系列的視頻增穩的工作,其中work的即爲meshflow。這裏貼一個meshflow解讀的鏈接

https://www.yuque.com/u452427/ling/qs0inc

總結一下,meshflow主要的流程爲“估計光流-->估計關鍵點並篩選出關鍵點的光流-->基於關鍵點光流得到mesh中每一個格點的motion/軌跡-->進行軌跡平滑並得到平滑後的軌跡/每一個格點的motion-->基於motion得到滿足平滑軌跡的視頻幀”。

總結了meshflow之後,這篇DUT主要進行的工作其實很簡單,在meshflow的框架下,將其中所有的模塊都deep化:

LK光流---->PWCNet

SIFT關鍵點----->RFNet

基於Median Filters的軌跡平滑------>可學習的1D卷積

除此之外,由於原始的meshflow是基於優化的方法,因此DUT在替換了模塊之後依舊保留了原始的約束項,並且可以使用無監督的方式完成訓練,效果也好於一票supervised的方法。


提名三

可形變卷積(DCN)

作者:陀飛輪


當年看Deformable Convolutional Networks(DCN)的時候最爲驚豔,可能看過的文章少,這種打破固定尺寸和位置的卷積方式,讓我感覺非常驚歎,網絡怎麼能夠在沒有直接監督的情況下,學習到不同位置的offset的,然後可視化出來,能夠使得offset後的位置能夠剛好捕捉到不同尺寸的物體,太精彩了!

提名四

深度學習框架、圖像識別、圖像生成、模型優化 、自然語言處理

作者:葉小飛
我想從 深度學習框架圖像識別、圖像生成、模型優化 、自然語言處理 五個領域評選出一篇最驚豔的論文, 並且對每一篇論文都賦予一個 武俠小說裏對應的絕頂武功 以此來表達我的膜拜與狂熱。

深度學習框架

  • 論文名稱:Caffe: Convolutional Architecture for Fast Feature Embedding

  • 論文鏈接:https://arxiv.org/abs/1408.5093

  • 驚豔理由:在那個大家都用matlab和自己diy深度學習框架的年代,賈大神的Caffe橫空出世,爲深度學習領域創立了一個通用、易拓展的框架,使復現、開發各種新型算法變得更加容易,可以說是開山鼻祖。

  • 對標武功:《天龍八部》內的易筋經易筋鍛骨,重塑七經,這不正和caffe的效用不謀而合?caffe不就相當於重塑了深度學習的筋骨,使得後續各種五花八門的算法變得可能實現?


圖像識別

  • 論文名稱:Deep Residual Learning for Image Recognition

  • 論文鏈接:https://arxiv.org/pdf/1512.03385.pdf

  • 驚豔理由:一個簡簡單單的skip connection一招制敵,優雅至極,直接將CNN的表現提升了一個大檔次。

  • 對標武功:《天涯明月刀》裏傅紅雪的刀法。傅紅雪的武功就一招——拔刀收刀,簡單卻致命,正如resnet的skip connection. 這一刀是傅紅雪拔了千萬次刀後凝練的精魂,正與skip connection是作者做了無數實驗與分析後凝練的結構如出一轍。


圖像生成

  • 論文名稱:Generative Adversarial Networks

  • 論文鏈接:https://arxiv.org/abs/1406.2661

  • 驚豔理由:Encoder-decoder 出現已久, 分類器出現也很久,Goodfellow卻是真正意義上把這二者完美結合起來的第一人,是現如今圖像視頻模擬生成的鼻祖。

  • 對標武功:《射鵰英雄傳》裏的左右互博。老頑童讓左手和右手打架,結果兩隻手突飛猛進,Goodfellow 讓generator 和discriminator 互相打架,結果兩個模型變得越來越強,最後甚至可以以假亂真。


模型優化

  • 論文名稱:Distilling the Knowledge in a Neural Network

  • 論文鏈接:https://arxiv.org/pdf/1503.02531.pdf

  • 驚豔理由:  知識蒸餾的開山之作,在不增加任何online inference資源的情況下,讓模型得到極大優化。

  • 對標武功:《天龍八部》裏的北冥神功。段譽吸各個高手的內功變成了天龍三絕之一,student net吸取teacher net的知識變成了更robust的模型。


自然語言處理

  • 論文名稱:Language Models are Few-Shot Learners(GPT-3)

  • 論文鏈接:https://arxiv.org/pdf/2005.14165.pdf

  • 驚豔理由:在看到這篇論文之前,我做夢也想不到一個NLP模型居然有175億個參數,可以說是深度學習裏的暴力美學的極致了。

  • 對標武功:降龍十八掌。降龍十八掌剛猛無雙,遇到強敵以剛勁的掌力與無所畏懼的氣勢壓倒對方。GPT-3龐大無比,遇到語言數據以175億的模型參數與超出想象的計算資源死磕硬剛。如果喬峯是個深度學習科學家,一定會愛死這個模型。


提名五

CAM,class activation map

作者:Ferenas

那就從我的研究領域中挑一個出來吧,我的研究方向是基於image-level的弱監督語義分割,(貌似這個點近兩年趨勢漸淡),而其中令我最驚豔的就是CAM,class activation map

文章題目叫Learning Deep Features for Discriminative Localization,google百度一下都可以找到。這篇文章其實是想探究我們的CNN在學習圖像的時候到底重點關注在哪個部分。這裏拋開論文裏面的繁瑣的數學解釋啥的(大家可以看看原論文),最後論文用一張圖表示了這個大概是怎麼樣的一個過程。

對你沒有看錯,圖像關注的部分就是將該類的fc層中的權重和feature maps對應加權求和就行了。說實話我覺得這個真的是經過很多實驗才發現的idea。因此通過這個CAM我們便可知這個網絡到底在學什麼東西。

至於後面CAM變體例如grad-cam等大家可以去查閱瞭解。通過這個驚豔的CAM,我覺得是開了基於弱監督圖像分割領域的先河,簡直是祖先級別的神工作。

爲什麼這麼說呢,基於image-level的弱監督分割旨在僅通過分類標籤而生成對應的分割標籤圖,(畢竟手工標記分割圖上的像素太燒錢了呀哈哈哈 )你看看CAM,如果通過閾值一下的話,那些熱點處的不就可以作爲置信度高的前景像素標籤了嘛!!!

於是你便可以看到大量的弱監督領域分割之作都是在這個CAM之上完成的。不僅如此,CAM也在可解釋領域中被作爲一種基本的工具。這篇五年前的文章至今仍在視覺領域中放光發熱,讓很多的學者以此爲基石展開研究。

我也是很感謝這篇工作讓我接觸到弱監督領域。畢竟是我轉做計算機視覺讀的第一篇文章hhhh,所以,thank you, CAM!

參考鏈接:
回答1-王晉東不在家:
https://www.zhihu.com/question/440729199/answer/1697212235
回答2-rainy:
https://www.zhihu.com/question/440729199/answer/1693346011
回答3-陀飛輪:
https://www.zhihu.com/question/440729199/answer/1695810150
回答4-葉小飛:
https://www.zhihu.com/question/440729199/answer/1698687630
回答5-Ferenas:
https://www.zhihu.com/question/440729199/answer/1695809572

   
      
      
      
個人微信(如果沒有備註不拉羣!
請註明: 地區+學校/企業+研究方向+暱稱



下載1:何愷明頂會分享


AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析


下載2:終身受益的編程指南:Google編程風格指南


AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!



 
    
    
    
下載3 CVPR2020

AI算法與圖像處公衆號後臺回覆: CVPR2020 即可下載1467篇CVPR 2020論文


覺得不錯就點亮在看吧




本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章