騰訊58篇論文入選CVPR 2019,涵蓋視覺對抗學習等方向

全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即 IEEE 國際計算機視覺與模式識別會議) 即將於六月在美國長灘召開,CVPR 官網顯示,今年有超過 5165 篇的大會論文投稿,錄取的 1299 篇論文,比去年增長了 32%(2017 年論文錄取 979 篇)。這些錄取的最新科研成果,涵蓋了計算機視覺領域各項前沿工作。

2019 年騰訊公司有超過 58 篇論文被本屆 CVPR 大會接收 ,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab 33 篇。騰訊此次被收錄的論文涵蓋深度學習優化原理、視覺對抗學習、人臉建模與識別、視頻深度理解、行人重識別、人臉檢測等領域。

以下是騰訊優圖實驗室的部分論文解讀。

1. Unsupervised Person Re-identification by Soft Multilabel Learning

軟多標籤學習的無監督行人重識別

image

相對於有監督行人重識別(RE-ID)方法,無監督 RE-ID 因其更佳的可擴展性受到越來越多的研究關注,然而在非交疊的多相機視圖下,標籤對(pairwise label)的缺失導致學習鑑別性的信息仍然是非常具有挑戰性的工作。爲了克服這個問題,我們提出了一個用於無監督 RE-ID 的軟多標籤學習深度模型。該想法通過將未標註的人與輔助域裏的一組已知參考者進行比較,爲未標註者標記軟標籤(類似實值標籤的似然向量)。基於視覺特徵以及未標註目標對的軟性標籤的相似度一致性,我們提出了軟多標籤引導的 hard negative mining 方法去學習一種區分性嵌入表示(discriminative embedding)。由於大多數目標對來自交叉視角,我們提出了交叉視角下的軟性多標籤一致性學習方法,以保證不同視角下標籤的一致性。爲實現高效的軟標籤學習,引入了參考代理學習(reference agent learning)。我們的方法在 Market-1501 和 DukeMTMC-reID 上進行了評估,顯著優於當前最好的無監督 RE-ID 方法。

2. Visual Tracking via Adaptive Spatially-Regularized Correlation Filters

基於自適應空間加權相關濾波的視覺跟蹤研究

image

本文提出自適應空間約束相關濾波算法來同時優化濾波器權重及空間約束矩陣。

首先,本文所提出的自適應空間約束機制可以高效地學習得到一個空間權重以適應目標外觀變化,因此可以得到更加魯棒的目標跟蹤結果。其次,本文提出的算法可以通過交替迭代算法來高效進行求解,基於此,每個子問題都可以得到閉合的解形式。再次,本文所提出的跟蹤器使用兩種相關濾波模型來分別估計目標的位置及尺度,可以在得到較高定位精度的同時有效減少計算量。大量的在綜合數據集上的實驗結果證明了本文所提出的算法可以與現有的先進算法取得相當的跟蹤結果,並且達到了實時的跟蹤速度。

3. Adversarial Attacks Beyond the Image Space

超越圖像空間的對抗攻擊

生成對抗實例是理解深度神經網絡工作機理的重要途徑。大多數現有的方法都會在圖像空間中產生擾動,即獨立修改圖像中的每個像素。在本文中,我們更爲關注與三維物理性質(如旋轉和平移、照明條件等)有意義的變化相對應的對抗性示例子集。可以說,這些對抗方法提出了一個更值得關注的問題,因爲他們證明簡單地干擾現實世界中的三維物體和場景也有可能導致神經網絡錯分實例。

在分類和視覺問答問題的任務中,我們在接收 2D 輸入的神經網絡前邊增加一個渲染模塊來拓展現有的神經網絡。我們的方法的流程是:先將 3D 場景(物理空間)渲染成 2D 圖片(圖片空間),然後經過神經網絡把他們映射到一個預測值(輸出空間)。這種對抗性干擾方法可以超越圖像空間。在三維物理世界中有明確的意義。雖然圖像空間的對抗攻擊可以根據像素反照率的變化來解釋,但是我們證實它們不能在物理空間給出很好的解釋,這樣通常會具有非局部效應。但是在物理空間的攻擊是有可能超過圖像空間的攻擊的,雖然這個比圖像空間的攻擊更難,體現在物理世界的攻擊有更低的成功率和需要更大的干擾。

4. Learning Context Graph for Person Search

基於上下文圖網絡的行人檢索模型

image

本文由騰訊優圖實驗室與上海交通大學主導完成。

近年來,深度神經網絡在行人檢索任務中取得了較大的成功。但是這些方法往往只基於單人的外觀信息,其在處理跨攝像頭下行人外觀出現姿態變化、光照變化、遮擋等情況時仍然比較困難。本文提出了一種新的基於上下文信息的行人檢索模型。所提出的模型將場景中同時出現的其他行人作爲上下文信息,並使用卷積圖模型建模這些上下文信息對目標行人的影響。我們在兩個著名的行人檢索數據集 CUHK-SYSU 和 PRW 的兩個評測維度上刷新了當時的世界紀錄,取得了 top1 的行人檢索結果。

5. Underexposed Photo Enhancement using Deep Illumination Estimation

基於深度學習優化光照的暗光下的圖像增強

本文介紹了一種新的端到端網絡,用於增強曝光不足的照片。我們不是像以前的工作那樣直接學習圖像到圖像的映射,而是在我們的網絡中引入中間照明,將輸入與預期的增強結果相關聯,這增強了網絡從專家修飾的輸入/輸出圖像學習複雜的攝影調整的能力。基於該模型,我們制定了一個損失函數,該函數採用約束和先驗在中間的照明上,我們準備了一個3000 個曝光不足的圖像對的新數據集,並訓練網絡有效地學習各種照明條件的豐富多樣的調整。通過這些方式,我們的網絡能夠在增強結果中恢復清晰的細節,鮮明的對比度和自然色彩。我們對基準 MIT-Adobe FiveK 數據集和我們的新數據集進行了大量實驗,並表明我們的網絡可以有效地處理以前的困難圖像。

6. Homomorphic Latent Space Interpolation for Unpaired Image-to-image

Translation

基於同態隱空間插值的不成對圖片到圖片轉換

生成對抗網絡在不成對的圖像到圖像轉換中取得了巨大成功。循環一致性允許對沒有配對數據的兩個不同域之間的關係建模。在本文中,我們提出了一個替代框架,作爲潛在空間插值的擴展,在圖像轉換中考慮兩個域之間的中間部分。該框架基於以下事實:在平坦且光滑的潛在空間中,存在連接兩個採樣點的多條路徑。正確選擇插值的路徑允許更改某些圖像屬性,而這對於在兩個域之間生成中間圖像是非常有用的。我們還表明該框架可以應用於多域和多模態轉換。廣泛的實驗表明該框架對各種任務具有普遍性和適用性。

7. X2CT-GAN: Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks

基於生成對抗網絡的雙平面 X 光至 CT 生成系統

當下 CT 成像可以提供三維全景視角幫助醫生了解病人體內的組織器官的情況,來協助疾病的診斷。但是 CT 成像與 X 光成像相比,給病人帶來的輻射劑量較大,並且費用成本較高。 傳統 CT 影像的三維重建過程中圍繞物體中心旋轉採集並使用了大量的 X 光投影,這在傳統的 X 光機中也是不能實現的。在這篇文章中,我們創新性的提出了一種基於對抗生成網絡的方法,只使用兩張正交的二維 X 光圖片來重建逼真的三維 CT 影像。核心的創新點包括增維生成網絡,多視角特徵融合算法等。我們通過實驗與量化分析,展示了該方法在二維 X 光到三維 CT 重建上大大優於其他對比方法。通過可視化 CT 重建結果,我們也可以直觀的看到該方法提供的細節更加逼真。在實際應用中, 我們的方法在不改變現有 X 光成像流程的前提下,可以給醫生提供額外的類 CT 的三維影像,來協助他們更好的診斷。

小編注:關注AI前線,後臺回覆“騰訊CVPR”獲得完整解讀報告!

image

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章