發表在CVPR2019。
針對的問題:
- 爲了自動地和同時地挖掘視頻的時空信息,可以使用3D卷積。但是3D卷積會帶來更多的參數量和計算複雜度;
- 殘差恆等映射的大量使用增加了計算複雜度和模型負擔.
主要工作:
- 快速時空殘差網絡(FSTRN);
- 快速時空殘差塊(FRB);
- 全局殘差學習(GRL),包含LR空間殘差學習(LRL)以及跨空間殘差學習(CRL)
FSTRN:
網絡結構:
包含四個模塊:LR視頻淺層特徵提取網絡(LFENet),快速時空殘差塊(FRBs),LR特徵融合和上採用SR網絡(LSRNet),全局殘差學習部分(GRL)。
LEFNet:簡單地使用C3D層從LR視頻提取特徵:
FRBs: 提取從LEFNet輸出的時空特徵
在FRBs時,使用LR空間殘差學習(LRL)去提升LR空間的特徵學習:
LSRNet:用於在LRL之後獲得超分的視頻,先使用C3D進行特徵融合,然後使用反捲積進行上縮放,再用一個C3D用於特徵圖通道調優。
最後將以及從LR到HR空間的全局殘差相加得到最後的輸出:
快速時空殘差塊
與EDSR相同的是都去除了BN和相加後的ReLU,不同的是將卷積換爲了3D卷積,並且將ReLU置於卷積前面,而本文提出的FRB則是將ReLU換爲了PReLU,以及將k*k*k的3D卷積分解爲兩個1*k*k和k*1*1的3D卷積,減少了計算量。
全局殘差學習:包含兩個部分,LR空間殘差學習和跨空間殘差學習。
LR空間殘差學習:用於FRBs模塊,
跨空間殘差學習: 將LR視頻直接通過插值映射到HR空間,
Loss:
理論分析:有時間再補上 :)