深度學習領域，你心目中 idea 最驚豔的論文是哪篇？

點擊上方“AI算法與圖像處理”，選擇加"星標"或“置頂”


   
   
   
 
    
    
    重磅乾貨，第一時間送達

   
   
   

   
   
   
 
    
    
    
  
     
     
     
   
      
      
      
    
       
       
        
         
          
           
            
            推薦閱讀 
            31個Python實戰項目教你掌握圖像處理，PDF開放下載 
            opencv_contrib擴展模塊中文教程pdf，限時領取

來源丨知乎問答（如有侵權請聯繫刪除）

編輯丨極市平臺

導讀

深度學習研究中，我們往往會讀到讓自己覺得想法很驚豔的論文，心中對不同的論文也會有一個排名，那麼本文中的提名是你心中的No.1嗎？

科研路上我們往往會讀到讓自己覺得想法很驚豔的論文，心中對不同的論文也會有一個排名，以下介紹了一些知乎作者心中白月光般存在的深度學習領域論文，看看是否你們擁有同樣心目中的The one。

提名一

ResNet和Transformer

作者：王晉東不在家

時至今日，許多大領域都離不開這兩種結構。 Transformer更是從NLP領域走入了CV領域，大有一統天下之勢。

ResNet大道至簡，更傾向於從原來的CNN結構設計出發，通過大量的實驗和分析，添加了skip connection，一招封神。

Transformer則另起爐竈，乾脆完全拋棄了RNN的結構，從根本上嘗試self-attn加全連接層對於序列建模的能力。

今日的你或許通過實驗可以大概搞出來ResNet的skip connection結構，但是能想出來跟transformer一樣完全不用RNN、並能讓這種當時看來“非主流”的結構work的比RNN還好，就能稱得上是天才了。

這其中，固然要有科研的敏銳嗅覺，更多的還是源於超強的代碼能力，以及願意爲你這種嘗試提供資金和設備支持的大環境。

所以說，要想取得絕對的成功，天時（CNN與NLP發展的大環境）、地利（所在單位的資源投入）、人和（老闆與同事的支持），三者缺一不可。

提名二

DUT（視頻增穩）

作者：rainy

來分享一篇小衆方向（視頻增穩/Video Stabilization）的論文，可能不是那種推動領域進步的爆炸性工作，這篇論文我認爲是一篇比較不錯的把傳統方法deep化的工作。

DUT: Learning Video Stabilization by Simply Watching Unstable Videos

https://arxiv.org/pdf/2011.14574.pdf

看樣子應該是投稿CVPR21，已開源。

https://github.com/Annbless/DUTCode

首先介紹一下視頻增穩的定義，如名稱所示，視頻增穩即爲輸入一系列連續的，非平穩（抖動較大）的視頻幀，輸出一系列連續的，平穩的視頻幀。

由於方向有點略微小衆，因此該領域之前的工作（基於深度學習）可以簡單分爲基於GAN的直接生成，基於光流的warp，基於插幀（其實也是基於光流的warp）這麼幾類。這些論文將視頻增穩看做了“視頻幀生成問題”，但是理想的視頻增穩工作應該看做“軌跡平滑”問題更爲合適。

而在深度學習之前劉帥成（http://www.liushuaicheng.org/）大神做了一系列的視頻增穩的工作，其中work的即爲meshflow。這裏貼一個meshflow解讀的鏈接

https://www.yuque.com/u452427/ling/qs0inc

總結一下，meshflow主要的流程爲“估計光流-->估計關鍵點並篩選出關鍵點的光流-->基於關鍵點光流得到mesh中每一個格點的motion/軌跡-->進行軌跡平滑並得到平滑後的軌跡/每一個格點的motion-->基於motion得到滿足平滑軌跡的視頻幀”。

總結了meshflow之後，這篇DUT主要進行的工作其實很簡單，在meshflow的框架下，將其中所有的模塊都deep化：

LK光流---->PWCNet

SIFT關鍵點----->RFNet

基於Median Filters的軌跡平滑------>可學習的1D卷積

除此之外，由於原始的meshflow是基於優化的方法，因此DUT在替換了模塊之後依舊保留了原始的約束項，並且可以使用無監督的方式完成訓練，效果也好於一票supervised的方法。

提名三

可形變卷積（DCN）

作者：陀飛輪

當年看Deformable Convolutional Networks(DCN)的時候最爲驚豔，可能看過的文章少，這種打破固定尺寸和位置的卷積方式，讓我感覺非常驚歎，網絡怎麼能夠在沒有直接監督的情況下，學習到不同位置的offset的，然後可視化出來，能夠使得offset後的位置能夠剛好捕捉到不同尺寸的物體，太精彩了！

提名四

深度學習框架、圖像識別、圖像生成、模型優化、自然語言處理

作者：葉小飛

我想從 深度學習框架、圖像識別、圖像生成、模型優化、自然語言處理 五個領域評選出一篇最驚豔的論文，並且對每一篇論文都賦予一個 武俠小說裏對應的絕頂武功 ，以此來表達我的膜拜與狂熱。

深度學習框架

論文名稱：Caffe: Convolutional Architecture for Fast Feature Embedding
論文鏈接：https://arxiv.org/abs/1408.5093
驚豔理由：在那個大家都用matlab和自己diy深度學習框架的年代，賈大神的Caffe橫空出世，爲深度學習領域創立了一個通用、易拓展的框架，使復現、開發各種新型算法變得更加容易，可以說是開山鼻祖。
對標武功：《天龍八部》內的易筋經。易筋鍛骨，重塑七經，這不正和caffe的效用不謀而合？caffe不就相當於重塑了深度學習的筋骨，使得後續各種五花八門的算法變得可能實現？

圖像識別

論文名稱：Deep Residual Learning for Image Recognition
論文鏈接：https://arxiv.org/pdf/1512.03385.pdf
驚豔理由：一個簡簡單單的skip connection一招制敵，優雅至極，直接將CNN的表現提升了一個大檔次。
對標武功：《天涯明月刀》裏傅紅雪的刀法。傅紅雪的武功就一招——拔刀收刀，簡單卻致命，正如resnet的skip connection. 這一刀是傅紅雪拔了千萬次刀後凝練的精魂，正與skip connection是作者做了無數實驗與分析後凝練的結構如出一轍。

圖像生成

論文名稱：Generative Adversarial Networks
論文鏈接：https://arxiv.org/abs/1406.2661
驚豔理由：Encoder-decoder 出現已久，分類器出現也很久，Goodfellow卻是真正意義上把這二者完美結合起來的第一人，是現如今圖像視頻模擬生成的鼻祖。
對標武功：《射鵰英雄傳》裏的左右互博。老頑童讓左手和右手打架，結果兩隻手突飛猛進，Goodfellow 讓generator 和discriminator 互相打架，結果兩個模型變得越來越強，最後甚至可以以假亂真。

模型優化

論文名稱：Distilling the Knowledge in a Neural Network
論文鏈接：https://arxiv.org/pdf/1503.02531.pdf
驚豔理由: 知識蒸餾的開山之作，在不增加任何online inference資源的情況下，讓模型得到極大優化。
對標武功：《天龍八部》裏的北冥神功。段譽吸各個高手的內功變成了天龍三絕之一，student net吸取teacher net的知識變成了更robust的模型。

自然語言處理

論文名稱：Language Models are Few-Shot Learners（GPT-3）
論文鏈接：https://arxiv.org/pdf/2005.14165.pdf
驚豔理由：在看到這篇論文之前，我做夢也想不到一個NLP模型居然有175億個參數，可以說是深度學習裏的暴力美學的極致了。
對標武功：降龍十八掌。降龍十八掌剛猛無雙，遇到強敵以剛勁的掌力與無所畏懼的氣勢壓倒對方。GPT-3龐大無比，遇到語言數據以175億的模型參數與超出想象的計算資源死磕硬剛。如果喬峯是個深度學習科學家，一定會愛死這個模型。

提名五

CAM，class activation map

作者：Ferenas

那就從我的研究領域中挑一個出來吧，我的研究方向是基於image-level的弱監督語義分割，（貌似這個點近兩年趨勢漸淡），而其中令我最驚豔的就是CAM，class activation map

文章題目叫Learning Deep Features for Discriminative Localization，google百度一下都可以找到。這篇文章其實是想探究我們的CNN在學習圖像的時候到底重點關注在哪個部分。這裏拋開論文裏面的繁瑣的數學解釋啥的（大家可以看看原論文），最後論文用一張圖表示了這個大概是怎麼樣的一個過程。

對你沒有看錯，圖像關注的部分就是將該類的fc層中的權重和feature maps對應加權求和就行了。說實話我覺得這個真的是經過很多實驗才發現的idea。因此通過這個CAM我們便可知這個網絡到底在學什麼東西。

至於後面CAM變體例如grad-cam等大家可以去查閱瞭解。通過這個驚豔的CAM，我覺得是開了基於弱監督圖像分割領域的先河，簡直是祖先級別的神工作。

爲什麼這麼說呢，基於image-level的弱監督分割旨在僅通過分類標籤而生成對應的分割標籤圖，（畢竟手工標記分割圖上的像素太燒錢了呀哈哈哈）你看看CAM，如果通過閾值一下的話，那些熱點處的不就可以作爲置信度高的前景像素標籤了嘛！！！

於是你便可以看到大量的弱監督領域分割之作都是在這個CAM之上完成的。不僅如此，CAM也在可解釋領域中被作爲一種基本的工具。這篇五年前的文章至今仍在視覺領域中放光發熱，讓很多的學者以此爲基石展開研究。

我也是很感謝這篇工作讓我接觸到弱監督領域。畢竟是我轉做計算機視覺讀的第一篇文章hhhh，所以，thank you, CAM！

參考鏈接：

回答1-王晉東不在家：

https://www.zhihu.com/question/440729199/answer/1697212235

回答2-rainy：

https://www.zhihu.com/question/440729199/answer/1693346011

回答3-陀飛輪：

https://www.zhihu.com/question/440729199/answer/1695810150

回答4-葉小飛：

https://www.zhihu.com/question/440729199/answer/1698687630

回答5-Ferenas：

https://www.zhihu.com/question/440729199/answer/1695809572

   
      
      
      
    
       
       
       個人微信（如果沒有備註不拉羣！）
   
      
      
      
   
      
      
      
    
       
       
       請註明：
    
       
       
       地區+學校/企業+研究方向+暱稱
   
      
      
      
   
      
      
      
    
       
       
       

   
      
      
      


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


 
    
    
    
  
     
     
     

 
    
    
    
 
    
    
    
  
     
     
     下載3 CVPR2020
 
    
    
    
 
    
    
    
  
     
     
     

 
    
    
    
 
    
    
    
  
     
     
     在「AI算法與圖像處理」公衆號後臺回覆：
  
     
     
     CVPR2020
  
     
     
     ，即可下載1467篇CVPR 2020論文
 
    
    
    



   
   
   
 
    
    
    
  
     
     
     
   
      
      
      
    
       
       
       覺得不錯就點亮在看吧

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

深度學習領域，你心目中 idea 最驚豔的論文是哪篇？

深度學習框架

圖像識別

圖像生成

模型優化

自然語言處理

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

別魔改網絡了，Google研究員：模型精度不高，是因爲你的Resize方法不夠好！

深度學習中圖像分割經典算法和必備知識點整理

算！力！羊！毛！5000核時計算資源終於開放使用了！

部署教程 | ResNet原理+PyTorch復現+ONNX+TensorRT int8量化部署

YOLOS：通過目標檢測重新思考Transformer（附源代碼）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結