◎本文爲極市開發者「可樂」原創投稿,轉載請註明來源。
◎極市「論文推薦」專欄,幫助開發者們分享自己的最新工作,歡迎大家投稿。聯繫極市小編(ID:fengcall19),備註:投稿,即可投稿~
很多圖像生成任務都需要在空域對輸入圖像進行移動和重新排列。然而,卷積神經網絡難以進行高效的空域轉換操作。近日,來自北大和鵬城實驗室的研究者們提出了一種全新的空域轉換模塊Global-Flow Local-Attention。這一模塊將光流和注意力機制結合起來,通過首先提取源圖像與目標圖像之間的整體相關性,得到全局的光流圖。然後利用光流圖,採樣局部的特徵塊以進行局部的注意力操作。
他們在人體姿態轉換任務上測試了提出模型的優越性。實驗結果證明模型可以對輸入圖像進行準確高效地空域轉換:輸出結果圖像保持了輸入圖像中逼真的細節紋理;同時,模型的參數量不足現有主流方法的一半。
每一組圖像中,左側爲生成圖像,右側爲輸入圖像。箭頭展示了文章提出的Global-Flow Local-Attention模塊對輸入數據的空間移動過程
此外文章還將提出的模塊用於Image Animation任務。通過輸入連續的指導信息來生成逼真的運動視頻。
Global-Flow Local-Attention模型簡介
文章所提出的模型架構如上圖所示。具體來說,模型可以被分爲兩個模塊:全局光流提取器和局部特徵渲染器。全局光流提取器用來提取源圖像和目標圖像之間的光流場。而局部特徵渲染器則利用提取到的光流場從源圖像中採樣逼真的紋理信息,從而對目標圖像的骨架進行渲染,得到結果圖像。
爲了使模型穩定地收斂,在局部特徵渲染器中,文章沒有采用傳統的雙線性插值進行採樣。而是使用了內容感知的局部注意力機制。這一操作的具體流程如上圖所示。首先,從源特徵以及目標特徵中提取局部的圖像塊。利用局部採樣核預測網絡來預測圖像塊對之間的注意力係數。這一系數被用做採樣參數來採樣提取的局部特徵塊。以得到最終的採樣結果。
那麼算法的實際效果如何呢?
作者在兩個數據集上進行了對比實驗。在客觀指標FID和LPIPS上算法都有明顯的優勢。同時他們也在MTurk平臺邀請志願者進行了主觀測試的實驗。JND(Just Noticeable Difference)表示了各個方法生成的結果與真實圖像對比時的欺騙率。可以看到文章提出的算法取得了很好的測試結果。
從不同算法的結果圖像中可以看出文章所提出的算法不僅能夠生成正確的姿勢,同時還能夠還原出結果圖像逼真的紋理信息,例如:衣服上的圖案花紋、鞋帶的樣式等等。
此外,文章還進行了詳盡的消融實驗來驗證假設的正確性。對比的模型包括:不使用任何Attention模塊(Baseline);使用傳統的Global Attention模塊(Global-Attn);使用光流模塊,但是採用雙線性插值進行採樣(Bi-sample)以及完整的模型(Full Model)。可以看出,採用完整Global-Flow Local-Attention模塊的模型(Full Model)取得了最好的性能。
通過分析消融實驗的主觀結果圖像可以進一步地爲這一結論尋找可能的解釋。Baseline難以恢復細節信息,因爲它使用一種先將原始信息抽象,後擴散至局部的方式來生成結果圖像。Global-Attn將某一特徵與全部的特徵計算相似度並採樣。這樣的採樣方式並不符合該任務的需求,因此結果圖像無法恢復逼真的細節信息。Bi-sample會因爲錯誤的採樣而導致性能下降。Full Model維持了良好的結構和細節信息。
傳遞門
想要了解更多的細節請參看論文:
https://arxiv.org/pdf/2003.00696.pdf
同時作者也開源了實驗代碼:
https://github.com/RenYurui/Global-Flow-Local-Attention
在 **極市平臺 **公衆號後臺回覆 GFLA,即可獲取論文下載鏈接。
-END**-**
*延伸閱讀
-
arbitrary-text-to-image-papers(圖像文本生成論文彙總)
-
TP-GAN 讓圖像生成再獲突破,根據單一側臉生成正面逼真人臉
-
CVPR 2018 | 使用 CNN 生成圖像先驗,實現更廣泛場景的盲圖像去模糊
添加極市小助手微信**(ID : cv-mart),備註:研究方向-姓名-學校/公司-城市(如:AI移動應用-小極-北大-深圳),即可申請加入AI移動應用極市技術交流羣**,更有**每月大咖直播分享、真實項目需求對接、求職內推、算法競賽、**乾貨資訊彙總、行業技術交流,一起來讓思想之光照的更遠吧~