【雜七雜八的筆記】2019CVPR論文快讀

2019年CVPR一共收到創紀錄的5165篇有效投稿,比2018年的3309篇多出近2000篇,最終有1294篇論文被接收,最終錄取率爲25.2%。1294篇錄取論文中,有288篇被錄用爲Oral論文。現在,距離2020年CVPR的截稿還剩整整一個月,在這種緊迫的時間裏,2019CVPR的快讀就處於比較尷尬的位置。但是無論怎樣也用這篇博客預祝夥(大)伴(佬)們Paper都中!都中!全都中!!!
附上2019年CVPR的MAIN CONFERENCE的地址,裏面包含着Award/Oral/Poster的論文。此外,順便給大家安利一個2019年CVPR論文題目和摘要集合的網址,非常優秀。博客中也貼了一些大佬們的論文博客講解,感謝大佬們,夥伴們衝啊!!!


2019 CVPR Paper Award

每年的Paper Award還是很值得一讀的(如果讀得懂的話,阿哈哈哈哈),不過有方向相近的還是要認真讀一下全文,Award也是在每年CVPR重含金量最高的幾篇論文。

Best Paper Award(1篇)

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction 【Paper】
非視距形狀重建的費馬路徑理論 ,by Shumian Xin, Sotiris Nousias, Kyros Kutulakos, Aswin Sankaranarayanan, Srinivasa G. Narasimhan and Ioannis Gkioulekas,科研機構分別是卡內基梅隆大學、多倫多大學、倫敦大學學院。值得一提的是,辛書冕本科畢業於西安交通大學電氣工程專業,目前是卡內基·梅隆大學機器人研究所的在讀博士生(給大佬鼓爪)。
【摘要】 我們提出了一個新的理論,即在一個已知的可見場景和一個不在瞬態相機視線範圍內的未知物體之間的Fermat path。這些光路要麼遵守鏡面反射,要麼被物體的邊界反射,從而編碼隱藏物體的形狀。
我們證明費馬路徑對應於瞬態測量中的不連續性。然後,我們推導出一種新的約束,它將這些不連續處的路徑長度的空間導數與表面法線相關聯。
基於這一理論,我們提出了一種名爲Fermat Flow的算法來估計非視距物體的形狀。我們的方法首次允許複雜對象的精確形狀恢復,範圍從隱藏在拐角處以及隱藏在漫射器後面的漫反射到鏡面反射。
最後,我們的方法與用於瞬態成像的特定技術無關。因此,我們展示了使用SPAD和超快激光從皮秒級瞬態恢復的毫米級形狀,以及使用干涉測量法從飛秒級瞬態微米級重建。我們相信我們的工作是非視距成像技術的重大進步。

Best Student Paper Award(1篇)

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation 【Paper】【CSDN】
視覺語言導航中的強化跨模態匹配和自監督模仿學習,by Xin Wang, Qiuyuan Huang, Asli Celikyilmaz, Jianfeng Gao, Dinghan Shen, Yuan-Fang Wang, William Yang Wang and Lei Zhang.
【摘要】 視覺語言導航(VLN)的任務是導航一個具體的代理,在真實的3D環境中執行自然語言命令。在這篇文章,我們研究如何解決這個任務中三個至關重要的挑戰:跨交叉模態基標對準,不適定反饋,泛化問題。首先,我們提出了一個新穎基於強化學習跨模態匹配(RCM)方法,執行跨交叉模態基標對準在局部和全局中,通過強化學習(RL)。另外,一個匹配評價是用提供一個內在獎勵來鼓勵在指令和軌跡全局匹配,一個推理導航器應用來執行跨交叉模態基標對準在局部視覺場景。在一個VLN基準數據集上進行評估,我們的RCM模型在SPL比先前的方法增強了10%以及實現了最先進的表現。爲提高普遍的學習機制,我們將介紹一個自監督模仿學習(SIL)方法,通過模仿它自己過去好的決策,來去探索未知的環境。我們證明SIL能夠估計一個較好和高效的策略,極大地最小化在看見和未看見環境之間成功率表現的差距。(從30.7%到11.7%)

Best Paper Honorable Mention(2 篇)

A Style-Based Generator Architecture for Generative Adversarial Networks 【Paper】 【Code】
GAN中基於風格的生成器,by Tero Karras, Samuli Laine and Timo Aila.這篇論文是PCGAN的論文作者今年的新作,支持機構是英偉達公司。GAN自2014年提出以來得到了很廣泛的應用,效果驚豔,本片論文中的效果更加真實。
【摘要】 我們從風格前一種得到啓示,爲對抗生成網絡提出了一種替代的生成器結構。在新的架構將導致一個自動學習,無監督分開高水平特徵(例如,姿態識別在訓練人臉)以及隨機方差在生成圖像(例如,雀斑,頭髮),以及它能夠直觀,特定尺度控制在統一協調下。新的生成器提高先進的在對於傳統分配質量衡量指標,導致證明較好的插補屬性,也較好的分開最新的因素變量。對量化插補質量和分離,我們提出兩個新的,自動方法來應用到任何生成框架。最後,我們介紹一個新的,高種類和高質量人臉數據集。

Learning the Depths of Moving People by Watching Frozen People 【Paper】【CSDN】
通過觀察靜止的人來學習移動人的深度,by Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Ce Liu, Bill Freeman and Noah Snavely.
【摘要】 我們提出了一種在單目攝像機和場景中的人都可以自由移動的情況下預測密集深度的方法。用於從單目視頻恢復動態非剛性物體的深度的現有方法對物體的運動施加強烈假設並且可能僅恢復稀疏深度。在本文中,我們採用數據驅動的方法,從新的數據來源中學習人物深度先驗:成千上萬的人們模仿人體模型的互聯網視頻,即凍結在多樣化,自然的姿勢,而手持攝像機巡視現場。因爲人是靜止的,所以可以使用多視圖立體重建來生成訓練數據。在推理時,我們的方法使用來自場景的靜態區域的運動視差線索來指導深度預測。我們通過移動手持攝像機捕獲的複雜人物動作的真實世界序列展示了我們的方法,顯示了對前沿的單目深度預測方法的改進,並顯示了使用我們預測的深度產生的各種3D效果。

PAMI Longuet-Higgins Prize (Retrospective Most Impactful Paper from CVPR 2009)

ImageNet: A large-scale hierarchical image database 【Paper】
by Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei.
Longuet-Higgins Prize是 IEEE 計算機協會模式分析與機器智能(PAMI)技術委員會在每年的 CVPR 頒發的 “計算機視覺基礎貢獻獎”,表彰十年前對計算機視覺研究產生了重大影響的 CVPR 論文。2019年的CVPR的計算機視覺基礎貢獻獎授予了李飛飛團隊的ImageNet Database,這篇論文發表於2009年,目前是計算機視覺的通用且極其重要的數據集之一。


2019 CVPR Oral Paper / Poster Paper

2019年的CVPR的Oral/Poster都很精彩,但是術業有專攻,夥伴們可以各取所需。在博客的一開頭就給大家推薦了網站,大家可以自己去看,這裏只放一些博主簡單看過的論文或者稍微有些相關的論文。

Selective Kernel Networks 【Paper】【Code】【CSDN】【CSDN】

選擇核心網絡,by Xiang Li; Wenhai Wang; Xiaolin Hu; Jian Yang. 靈感來源:在神經科學界,視皮層神經元的感受野大小受刺激的調節,即對不同刺激,卷積核的大小應該不同。
【摘要】 在標準的卷積神經網絡(CNN)中,每層中人工神經元的感受野被設計爲共享相同的大小。在神經科學界衆所周知,視覺皮層神經元的感受野大小是受刺激調節的,在構建CNN時很少考慮。我們在CNN中提出了一種動態選擇機制,該機制允許每個神經元根據輸入信息的多個尺度來自適應地調整其接受區域的大小。設計了一個稱爲選擇性內核(SK)單元的構建塊,其中使用softmax注意融合了具有不同內核大小的多個分支,這些注意由這些分支中的信息指導。對這些分支的不同關注產生了融合層中神經元有效感受野的不同大小。多個SK單元堆疊到稱爲選擇性內核網絡(SKNets)的深度網絡中。在ImageNet和CIFAR基準測試中,我們憑經驗表明SKNet在模型複雜度較低的情況下優於現有的最新體系結構。詳細的分析表明,SKNet中的神經元可以捕獲具有不同比例的目標對象,這驗證了神經元根據輸入自適應地調整其接收場大小的能力。

Learning a Deep ConvNet for Multi-Label Classification With Partial Labels 【Paper】

帶有少量標籤的多標籤分類的深度卷積網絡,by Thibaut Durand; Nazanin Mehrasa; Greg Mori.
【摘要】 深度卷積網絡在單標籤圖像分類(例如ImageNet)方面顯示出了出色的性能,但是有必要超越單標籤分類任務,因爲日常生活中的圖片本質上是多標籤的。多標籤分類比單標籤分類更困難,因爲輸入圖像和輸出標籤空間都更加複雜。此外,與按比例縮放尺寸的單標籤註釋相比,收集乾淨的多標籤註釋會更難。爲了降低註釋成本,我們建議使用部分標籤來訓練模型,即每個圖像只知道一些標籤。我們首先從經驗上比較不同的標記策略,以顯示在多標記數據集上使用部分標記的潛力。然後,爲了學習部分標籤,我們介紹了一種新的分類損失,它利用了每個示例中已知標籤的比例。我們的方法允許使用與使用所有註釋學習時相同的訓練設置。我們進一步探索了幾種基於課程學習的策略來預測標籤缺失。在三個大型多標籤數據集上進行了實驗:MS COCO,NUS-WIDE和Open Images。

Generalising Fine-Grained Sketch-Based Image Retrieval 【Paper】 【CSDN】

泛化基於草圖的細粒度圖像檢索,by Kaiyue Pang; Ke Li; Yongxin Yang; Honggang Zhang; Timothy M. Hospedales; Tao Xiang; Yi-Zhe Song. 這裏的Generalising我不太會翻譯,先暫定爲泛化吧,等我詳細看了論文後會把這個再補充上。
【摘要】 基於細粒度的基於草圖的圖像檢索(FG-SBIR)使用徒手繪製的草圖作爲查詢方式來解決與特定照片實例匹配的問題。現有的模型旨在學習一個可以直接比較草圖和照片的嵌入空間。成功完成後,他們需要在每個粗粒度類別內將實例級配對作爲帶註釋的訓練數據。由於學習的嵌入空間是特定於領域的,因此這些模型不能很好地概括類別。這限制了FG-SBIR的實際適用性。在本文中,我們將FG-SBIR的跨類別概括識別爲領域泛化問題,並提出了第一個解決方案。我們的主要貢獻是一種新穎的無監督學習方法,可以對原型視覺素描特徵的通用流形進行建模。然後,可以使用該模板對草圖/照片表示的學習進行參數化。然後,通過將新穎的草圖嵌入到流形中並相應地更新表示和檢索功能,自動適應模型。在兩個最大的FG-SBIR數據集Sketchy和QMUL-Shoe-V2上進行的實驗證明了我們的方法在實現FG-SBIR的跨類別泛化方面的功效。

Attention-Aware Multi-Stroke Style Transfer 【Paper】

注意-感知多筆畫的風格遷移,By Yuan Yao; Jianqiang Ren; Xuansong Xie; Weidong Liu; Yong-Jin Liu; Jun Wang。

Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting 【Paper】【CSDN】

學習對於高質量圖像修復的金字塔-內容編碼網絡,By Yanhong Zeng; Jianlong Fu; Hongyang Chao; Baining Guo。


這篇博客會不定時的更新啦,小夥伴們可以持續關注啦~祝大家Paper都中!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章