Video Super-resolution with Temporal Group Attention

發表在CVPR2020。

主要工作:將連續的視頻幀根據時間間隔分爲多組,然後通過一個注意力模塊和組間融合模塊進行集成,同時,爲了對齊大尺度運動的視頻幀,採取了與以往基於光流或者可變卷積不同的對齊方式,本文采用的是計算兩個連續幀之間的單應性矩陣,然後將鄰幀扭曲到參考幀。 

整體架構

組內融合模塊(Intra-group Fusion Module)

包括三個部分,第一部分有3個單元作爲空間特徵提取,每個單元由一個3x3卷積層、BN和ReLU組成,每個卷積層根據不同的幀率採用不同的擴張率,主要是基於幀的時間間隔大,運動幅度也比較大,反之運動幅度較小;第二部分使用3x3x3的3D卷積用於時空特徵融合;最後每組產生的組級別融合特徵採用2D dense block裏面的18個2D單元,用於進一步整合組內幀信息。

組間融合模塊 (Inter-group Fusion Module)

由於鄰幀與參考幀更加相似,慢幀率的組級別特徵會有較豐富的信息,而快幀率的組級別特徵會捕捉一些鄰幀丟失的細節信息, 時間注意力作爲一種指導,有效地整合不同時間間隔組的特徵。

 

Fast spatial alignment (homography)

Remark:本文的整體思路和EDVR相似,都是先對幀進行對齊,然後進行特徵提取和融合,採用的時間注意力也和EDVR類似。單應性的方式與光流相比,可能會比較少地引入像素級別的失真,同時本文在關鍵點採集較少或者在變換後與原幀差別較大的情況下,採用了退出機制,以提高魯棒性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章