點擊上方“AI算法與圖像處理”,選擇加"星標"或“置頂”
重磅乾貨,第一時間送達
導讀
深度學習研究中,我們往往會讀到讓自己覺得想法很驚豔的論文,心中對不同的論文也會有一個排名,那麼本文中的提名是你心中的No.1嗎?
科研路上我們往往會讀到讓自己覺得想法很驚豔的論文,心中對不同的論文也會有一個排名,以下介紹了一些知乎作者心中白月光般存在的深度學習領域論文,看看是否你們擁有同樣心目中的The one。
提名一
ResNet和Transformer
提名二
DUT(視頻增穩)
作者:rainy
來分享一篇小衆方向(視頻增穩/Video Stabilization)的論文,可能不是那種推動領域進步的爆炸性工作,這篇論文我認爲是一篇比較不錯的把傳統方法deep化的工作。
DUT: Learning Video Stabilization by Simply Watching Unstable Videos
https://arxiv.org/pdf/2011.14574.pdf
看樣子應該是投稿CVPR21,已開源。
https://github.com/Annbless/DUTCode
首先介紹一下視頻增穩的定義,如名稱所示,視頻增穩即爲輸入一系列連續的,非平穩(抖動較大)的視頻幀,輸出一系列連續的,平穩的視頻幀。
由於方向有點略微小衆,因此該領域之前的工作(基於深度學習)可以簡單分爲基於GAN的直接生成,基於光流的warp,基於插幀(其實也是基於光流的warp)這麼幾類。這些論文將視頻增穩看做了“視頻幀生成問題”,但是理想的視頻增穩工作應該看做“軌跡平滑”問題更爲合適。
而在深度學習之前劉帥成(http://www.liushuaicheng.org/)大神做了一系列的視頻增穩的工作,其中work的即爲meshflow。這裏貼一個meshflow解讀的鏈接
https://www.yuque.com/u452427/ling/qs0inc
總結一下,meshflow主要的流程爲“估計光流-->估計關鍵點並篩選出關鍵點的光流-->基於關鍵點光流得到mesh中每一個格點的motion/軌跡-->進行軌跡平滑並得到平滑後的軌跡/每一個格點的motion-->基於motion得到滿足平滑軌跡的視頻幀”。
總結了meshflow之後,這篇DUT主要進行的工作其實很簡單,在meshflow的框架下,將其中所有的模塊都deep化:
LK光流---->PWCNet
SIFT關鍵點----->RFNet
基於Median Filters的軌跡平滑------>可學習的1D卷積
除此之外,由於原始的meshflow是基於優化的方法,因此DUT在替換了模塊之後依舊保留了原始的約束項,並且可以使用無監督的方式完成訓練,效果也好於一票supervised的方法。
提名三
可形變卷積(DCN)
提名四
深度學習框架、圖像識別、圖像生成、模型優化 、自然語言處理
深度學習框架
論文名稱:Caffe: Convolutional Architecture for Fast Feature Embedding
論文鏈接:https://arxiv.org/abs/1408.5093
驚豔理由:在那個大家都用matlab和自己diy深度學習框架的年代,賈大神的Caffe橫空出世,爲深度學習領域創立了一個通用、易拓展的框架,使復現、開發各種新型算法變得更加容易,可以說是開山鼻祖。
對標武功:《天龍八部》內的易筋經。易筋鍛骨,重塑七經,這不正和caffe的效用不謀而合?caffe不就相當於重塑了深度學習的筋骨,使得後續各種五花八門的算法變得可能實現?
圖像識別
論文名稱:Deep Residual Learning for Image Recognition
論文鏈接:https://arxiv.org/pdf/1512.03385.pdf
驚豔理由:一個簡簡單單的skip connection一招制敵,優雅至極,直接將CNN的表現提升了一個大檔次。
對標武功:《天涯明月刀》裏傅紅雪的刀法。傅紅雪的武功就一招——拔刀收刀,簡單卻致命,正如resnet的skip connection. 這一刀是傅紅雪拔了千萬次刀後凝練的精魂,正與skip connection是作者做了無數實驗與分析後凝練的結構如出一轍。
圖像生成
論文名稱:Generative Adversarial Networks
論文鏈接:https://arxiv.org/abs/1406.2661
驚豔理由:Encoder-decoder 出現已久, 分類器出現也很久,Goodfellow卻是真正意義上把這二者完美結合起來的第一人,是現如今圖像視頻模擬生成的鼻祖。
對標武功:《射鵰英雄傳》裏的左右互博。老頑童讓左手和右手打架,結果兩隻手突飛猛進,Goodfellow 讓generator 和discriminator 互相打架,結果兩個模型變得越來越強,最後甚至可以以假亂真。
模型優化
論文名稱:Distilling the Knowledge in a Neural Network
論文鏈接:https://arxiv.org/pdf/1503.02531.pdf
驚豔理由: 知識蒸餾的開山之作,在不增加任何online inference資源的情況下,讓模型得到極大優化。
對標武功:《天龍八部》裏的北冥神功。段譽吸各個高手的內功變成了天龍三絕之一,student net吸取teacher net的知識變成了更robust的模型。
自然語言處理
論文名稱:Language Models are Few-Shot Learners(GPT-3)
論文鏈接:https://arxiv.org/pdf/2005.14165.pdf
驚豔理由:在看到這篇論文之前,我做夢也想不到一個NLP模型居然有175億個參數,可以說是深度學習裏的暴力美學的極致了。
對標武功:降龍十八掌。降龍十八掌剛猛無雙,遇到強敵以剛勁的掌力與無所畏懼的氣勢壓倒對方。GPT-3龐大無比,遇到語言數據以175億的模型參數與超出想象的計算資源死磕硬剛。如果喬峯是個深度學習科學家,一定會愛死這個模型。
提名五
CAM,class activation map
作者:Ferenas
那就從我的研究領域中挑一個出來吧,我的研究方向是基於image-level的弱監督語義分割,(貌似這個點近兩年趨勢漸淡),而其中令我最驚豔的就是CAM,class activation map
文章題目叫Learning Deep Features for Discriminative Localization,google百度一下都可以找到。這篇文章其實是想探究我們的CNN在學習圖像的時候到底重點關注在哪個部分。這裏拋開論文裏面的繁瑣的數學解釋啥的(大家可以看看原論文),最後論文用一張圖表示了這個大概是怎麼樣的一個過程。
對你沒有看錯,圖像關注的部分就是將該類的fc層中的權重和feature maps對應加權求和就行了。說實話我覺得這個真的是經過很多實驗才發現的idea。因此通過這個CAM我們便可知這個網絡到底在學什麼東西。
至於後面CAM變體例如grad-cam等大家可以去查閱瞭解。通過這個驚豔的CAM,我覺得是開了基於弱監督圖像分割領域的先河,簡直是祖先級別的神工作。
爲什麼這麼說呢,基於image-level的弱監督分割旨在僅通過分類標籤而生成對應的分割標籤圖,(畢竟手工標記分割圖上的像素太燒錢了呀哈哈哈 )你看看CAM,如果通過閾值一下的話,那些熱點處的不就可以作爲置信度高的前景像素標籤了嘛!!!
於是你便可以看到大量的弱監督領域分割之作都是在這個CAM之上完成的。不僅如此,CAM也在可解釋領域中被作爲一種基本的工具。這篇五年前的文章至今仍在視覺領域中放光發熱,讓很多的學者以此爲基石展開研究。
我也是很感謝這篇工作讓我接觸到弱監督領域。畢竟是我轉做計算機視覺讀的第一篇文章hhhh,所以,thank you, CAM!
個人微信(如果沒有備註不拉羣!)
請註明:
地區+學校/企業+研究方向+暱稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!
下載3 CVPR2020
在「AI算法與圖像處理」公衆號後臺回覆:
CVPR2020
,即可下載1467篇CVPR 2020論文
覺得不錯就點亮在看吧
本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。