CVPR 2018 最酷的十篇論文

本文爲 AI 研習社編譯的技術博客，原標題：

The 10 coolest papers from CVPR 2018

作者 | George Seif

翻譯 | Vincents 校對 | 鄧普斯•傑弗

審覈 | 永恆如新的日常整理 | Pita

原文鏈接：

https://towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49

2018年計算機視覺和模式識別會議（CVPR）上週在美國鹽湖城舉行。該會議是計算機視覺領域的世界頂級會議。今年，CVPR 收到3300篇主要會議論文並且最終被接收的論文多達 979 篇。超過6,500人蔘加了會議，這可以說是史詩級的大規模！ 6500人在下圖的會議廳參會：

每年，CVPR都會帶來優秀的人才以及他們很棒的研究; 並且總能看到和學習到一些新的東西。當然，每年都有一些論文發表新的突破性成果，併爲該領域帶來一些很有用的新知識。這些論文經常在計算機視覺的許多子領域帶來最先進的前沿技術。

最近，喜聞樂見的是那些開箱即用的創意論文！隨着深度學習在計算機視覺領域的不斷應用，我們仍然在探索各種可能性。許多論文將展示深度網絡在計算機視覺中的全新應用。它們可能不是根本上的突破性作品，但它們很有趣，並且可以爲該領域提供創造性和啓發性的視角，從它們呈現的新角度經常可以引發新的想法。總而言之，它們非常酷！

在這裏，我將向您展示我認爲在2018年CVPR上的10篇最酷論文。我們將看到最近才使用的深度網絡實現的新應用，以及其他的一些提供了新的使用方法和技巧的應用。您可能會在此過程中從中獲得一些新想法；）。話不多說，讓我們開始吧！

使用合成數據訓練深度網絡：通過域隨機化彌合現實差距

本文來自Nvidia，充分利用合成數據來訓練卷積神經網絡（CNN）。他們爲虛幻引擎4創建了一個插件，該插件將生成綜合訓練數據。真正的關鍵是他們隨機化了許多訓練數據中可以包含的變量，包括：

對象的數量和類型

干擾物的數量，類型，顏色和尺度

感興趣的對象和背景照片的紋理

虛擬相機相對於場景的位置

相機相對於場景的角度

點光源的數量和位置

他們展示了一些非常有前景的結果，證明了合成數據預訓練的有效性; 達到了前所未有的結果。這也爲沒有重要數據來源時提供了一種思路：生成並使用合成數據。

WESPE：用於數碼相機的弱監督照片增強器

這篇非常精妙！研究人員訓練了一個生成對抗網絡（GAN），能夠自動美化圖片。最酷的部分是，它是弱監督的，你不需要有輸入和輸出的圖像對！想要訓練網絡，你只需要擁有一套“好看”的圖片（用於輸出的正確標註）和一套想進一步調整的“粗糙”的圖片（用於輸入圖像）。生成對抗網絡被訓練成輸出輸入圖像更符合審美的版本，通常是改進色彩和圖片的對比度。

這一模型非常簡單並且能快速上手，因爲你不需要精確的圖像對，並且最終會得到一個“通用的"圖片增強器。我還喜歡這篇論文的一點是它是弱監督的方法，非監督學習看起來很遙遠。但是對計算機視覺領域的許多子類來說，弱監督似乎是一個更可靠更有希望的方向。

用Polygon-RNN ++實現分段數據集的高效交互式標註

深度網絡能夠良好運行的一個主要原因是有大型的經過標註的可用的數據集。然而對很多機器視覺任務來說，想獲得這樣的數據會很耗費時間並且成本高昂。特別是分割的數據需要對圖片中的每個像素進行分類標註。所以對大型數據集來說，你可以想象......標註任務永遠不可能標完！

Polygon-RNN++能夠讓你在圖中每個目標物體的周圍大致圈出多邊形形狀，然後網絡會自動生成分割的標註！論文中表明，這一方法的表現非常不錯，並且能在分割任務中快速生成簡單標註！

從時尚圖片創造膠囊衣櫃

“嗯......今天我該穿什麼？” 如果某人或某個東西能夠每天早上爲你回答這個問題，那麼你不必再去問這個問題，會不會很好？這樣的話你就不用了嗎？那麼我們就跟膠囊衣櫃（Capsule Wardrobes）打個招呼吧！

在這篇論文中，作者設計了一個模型，給出候選服裝和配件的清單，可以對單品進行組合，提供最大可能的混合搭配方案。它基本上使用目標函數進行訓練，這些目標函數旨在捕獲視覺兼容性，多功能性和用戶特定偏好的關鍵要素。有了膠囊衣櫃，您可以輕鬆地從衣櫃中獲得最適合您的服裝搭配！

Super SloMo：視頻插值中多箇中間幀的高質量估計

你曾經是否想過以超慢的動作拍攝超級酷炫的東西呢？Nvdia 的這項研究 Super SloMo 就能幫你實現！研究中他們使用 CNN 估計視頻的中間幀，並能將標準的 30fps 視頻轉換爲 240fps 的慢動作！該模型估計視頻中間幀之間的光流信息，並在這些信息中間插入視頻幀，使慢動作的視頻看起來也能清晰銳利。

是誰放狗出去？用視覺數據構建狗的行爲模型

這可能是有史以來最酷的研究論文！這項研究的想法是試圖模擬狗的思想和行爲。研究人員將許多傳感器連接到狗的四肢以收集其運動和行爲數據。此外，他們還在狗的頭部安裝一個攝像頭，以便看到和從狗的第一人稱視角所看到的世界相同。然後，將一組 CNN 特徵提取器用於從視頻幀獲取圖像特徵，並將其與傳感器數據一起傳遞給一組 LSTM 模型，以便學習並預測狗的動作和行爲。這是一項非常新穎而富有創造性的應用研究，其整體的任務框架及獨特的執行方式都是本文的亮點！希望這項研究能夠爲我們未來收集數據和應用深度學習技術的方式帶來更多的創造力。

學習分割一切

在過去的幾年裏，何凱明團隊 (以前在微軟研究院，現就職於 Facebook AI Research) 提出了許多重大的計算機視覺研究成果。他們的研究最棒之處在於將創造力和簡單性相結合，諸如將 ResNets和 Mask R-CNN 相結合的研究，這些都不是最瘋狂或最複雜的研究思路，但是它們簡單易行，並在實踐中非常有效。這一次也不例外。

該團隊最新的研究 Learning to Segment Every Thing 是 MaskR-CNN 研究的擴展，它使模型準確地分割訓練期間未出現的類別目標！這對於獲取快速且廉價的分割數據標註是非常有用的。事實上，該研究能夠獲得一些未知目標的基準分割效果，這對於在自然條件中部署這樣的分割模型來說是至關重要的，因爲在這樣的環境下可能存在許多未知的目標。總的來說，這絕對是我們思考如何充分利用深層神經網絡模型的正確方向。

桌上足球

本文的研究是在 FIFA 世界盃開幕時正式發表的，理應獲得最佳時機獎！這的確是 CVPR 上在計算機視覺領域的“更酷”應用之一。簡而言之，作者訓練了一個模型，在給定足球比賽視頻的情況下，該模型能夠輸出相應視頻的動態 3D 重建，這意味着你可以利用增強現實技術在任何地方查看它！

本文最大的亮點是結合使用許多不同類型的信息。使用視頻比賽數據訓練網絡，從而相當容易地提取 3D 網格信息。在測試時，提取運動員的邊界框，姿勢及跨越多個幀的運動軌跡以便分割運動員。接着你可以輕鬆地將這些 3D 片段投射到任何平面上。在這種情況下，你可以通過製作虛擬的足球場，以便在 AR 條件下觀看的足球比賽！在我看來，這是一種使用合成數據進行訓練的聰明方法。無論如何它都是一個有趣的應用程序！

LayoutNet：從單個 RGB 圖像重建 3D 房間佈局

這是一個計算機視覺的應用程序，我們可能曾經想過：使用相機拍攝某些東西，然後用數字 3D 技術重建它。這也正是本文研究的目的，特別是重建3D 房間佈局。研究人員使用全景圖像作爲網絡的輸入，以獲得房間的完整視圖。網絡的輸出是 3D 重建後的房間佈局，具有相當高的準確性！該模型足夠強大，可以推廣到不同形狀、包含許多不同傢俱的房間。這是一個有趣而好玩、又不需要投入太多研究人員就能實現的應用。

學習可遷移的結構用於可擴展的圖像識別任務

最後要介紹的是一項許多人都認爲是深度學習未來的研究：神經架構搜索 (NAS)。NAS 背後的基本思想是我們可以使用另一個網絡來“搜索”最佳的模型結構，而不需要手動地設計網絡結構。這個搜索過程是基於獎勵函數進行的，通過獎勵模型以使其在驗證數據集上有良好的表現。此外，作者在論文中表明，這種模型結構比起手動設計的模型能夠獲得更高的精度。這將是未來巨大的研究方向，特別是對於設計特定的應用程序而言。因爲我們真正關注的是設計好的 NAS 算法，而不是爲我們特定的應用設計特定的網絡。精心設計的 NAS 算法將足夠靈活，並能夠爲任何特定任務找到良好的網絡結構。

結語

感謝您的閱讀！希望您學到了一些新的有用的東西，甚至可能爲你自己的工作找到了一些新的想法！如果您覺得不錯，請分享給更多人可以看到這篇文章，並與我們一起跳上學習的列車！

想要繼續查看該篇文章相關鏈接和參考文獻？

長按鏈接點擊打開或點擊【CVPR 2018 最酷的十篇論文】：

https://ai.yanxishe.com/page/TextTranslation/1306

AI研習社每日更新精彩內容，觀看更多精彩內容：

盤點圖像分類的竅門

深度學習目標檢測算法綜述

生成模型：基於單張圖片找到物體位置

注意力的動畫解析（以機器翻譯爲例）

等你來譯：

如何在神經NLP處理中引用語義結構

(Python)用Mask R-CNN檢測空閒車位

高級DQNs：利用深度強化學習玩吃豆人遊戲

深度強化學習新趨勢：谷歌如何把好奇心引入強化學習智能體

CVPR 2018 最酷的十篇論文

使用合成數據訓練深度網絡：通過域隨機化彌合現實差距

WESPE：用於數碼相機的弱監督照片增強器

用Polygon-RNN ++實現分段數據集的高效交互式標註

從時尚圖片創造膠囊衣櫃

Super SloMo：視頻插值中多箇中間幀的高質量估計

是誰放狗出去？用視覺數據構建狗的行爲模型

學習分割一切

桌上足球

LayoutNet：從單個 RGB 圖像重建 3D 房間佈局

學習可遷移的結構用於可擴展的圖像識別任務

結語

刷arxiv有哪些技巧？5個問題快速理解機器學習論文

圖解 | NumPy可視化指南 numpy數組 vs. Python列表 1.向量與1維數組 2.矩陣和二維數組 3、3維及更高維數組參考

準備開始學習機器學習？有人幫你選出了 top 8 優質課程：CS229、 Stat 451……

人工智能和機器學習之間的區別，你真的清楚嗎? 什麼是機器學習？什麼是人工智能（AI）？爲什麼科技公司傾向於將AI和ML交替使用？

讓審稿人更感興趣的論文標題和摘要如何撰寫？簡潔、精確、周密是關鍵標題標題類型起草合適的標題好標題清單摘要類型摘要類型編寫合適的摘要參考文獻

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結