2019 CVPR|INIT:針對實例級的圖像翻譯

一.研究動機

近年來關於圖像翻譯的研究越來越多,其中比較經典的有監督模型包括Pix2Pix, BicycleGAN等,無監督模型包括CycleGAN, MUNIT, StarGAN, DRIT等。由於這些模型無論是針對多領域翻譯還是單領域翻譯都是將目標域圖像的風格/屬性整個遷移到源域圖像上,因此雖然這些方法可以很好的解決風格統一或者內容相關的圖像翻譯問題,但對於有大量實例物體並且物體與背景之間的風格差異非常巨大的複雜結構圖像翻譯來說是很困難的。爲了解決該問題作者基於MUNIT模型提出了基於端到端的訓練模型INIT,其採用不同的風格編碼來獨立的翻譯圖像中的物體、背景以及全局區域。

在這裏插入圖片描述
圖1.現有圖像翻譯模型的侷限

二.模型架構

INIT的網絡架構非常類似於MUNIT模型,但不同於MUNIT模型,作者提出的模型不僅對全局圖像進行內容和屬性編碼,而且還對實例物體以及背景也進行內容-屬性編碼。即首先給定一對未對齊的圖像和實例物體的座標位置,應用全局編碼器Eg以及局部編碼器Eo分別獲取全局圖像和實例物體圖像內容c和屬性向量s,然後通過交換屬性向量來獲取跨域的目標實例對象圖像,整個模型的架構如下圖所示。
在這裏插入圖片描述
圖2.INIT模型網絡結構
另外作者修改了原始的循環重建過程使其不僅包括跨域(X域->Y域)模式重建還包括了跨粒度級(實例物體->全局圖像)模式重建。對於跨域來說是完全基於MUNIT模型所提出的循環重建,針對跨粒度級的重建過程如圖3所示,作者通過交換圖像和實例物體的編碼-解碼對後生成圖像,再對生成圖像繼續重複上一操作使得再次生成出的圖像和實例物體應和原始圖像以及實例物體一致。
在這裏插入圖片描述
圖3.循環一致性損失(僅針對跨粒度級)
對於交換粒度級內容-屬性編碼對需要注意的是,作者採用了從粗略(全局)屬性向量去結合細粒度級內容向量的交換方式,而如果逆轉這一過程即利用細粒度的屬性向量去結合粗粒度級的內容向量則無法實現(如圖3所示)。
在這裏插入圖片描述
圖3.內容-屬性對交換策略
綜上所述,模型採用的損失包括重構損失以及對抗損失,重構損失包括了全局圖像重構以及局部實例物體重構,這兩類的重構中又包括了圖像重建損失、內容重建損失以風格重建損失。對抗損失也包括了全局對抗損失以及局部實例對抗損失,整個模型的損失函數如下。
在這裏插入圖片描述

三.實驗結果

作者的實驗主要採用了自己設計的INIT數據集以及COCO數據集,INIT數據集是由作者設計並首次應用於圖像翻譯問題,其中包含155529張高清街景圖像並且不僅設計了sunny,night,cloud,rain四種域標籤而且還對詳細實例對象邊界框註釋(車,人以及交通標誌)。作者使用LPIPS矩陣、Inception-Score以及Conditional Inception-Score對INIT模型進行評估,並和CycleGAN, UNIT, MUNIT, DRIT進行比對,其中INIT w/Ds表示全局圖像和局部實例對象共享一個鑑別器,INIT w/o Ds則表示兩個鑑別器獨立,以下是實驗結果。
在這裏插入圖片描述
在這裏插入圖片描述

四.總結

作者基於MUNIT的架構提出了針對實例級圖像翻譯技術,通過對提取實例對象的風格/屬性來直接影響和指導目標域該物體的生成,這使得在進行復雜結構圖象翻譯時能產生更細緻的結果。從實驗的效果圖來看也能發現翻譯後的圖像在具體實例對象上也能更符合現實場景。另外作者還設計了INIT街景數據集,該數據集包括了對具體實例對象的註釋框,有助於今後的圖像翻譯問題研究。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章