用於視頻超分辨率的可變形三維卷積

作者:Wangsy
來源:微信公衆號|3D視覺工坊(系投稿)
3D視覺精品文章彙總:https://github.com/qxiaofan/awesome-3D-Vision-Papers/

點擊上方“計算機視覺工坊”,選擇“星標”

乾貨第一時間送達

作者單位:電子科技大學、國防科技大學

譯者:Wangsy

論文、代碼地址:在公衆號「3D視覺工坊」,後臺回覆「三維卷積」,即可直接下載。

看點

問題:之前的方法的空間特徵提取和時間運動補償往往是順序的,無法充分利用時空信息

方法:提出了一個利用可變形3D卷積(D3D)的可變形三維卷積網絡(D3Dnet)來整合視頻的時空信息

優點:D3D作爲一個可以同時整合時間和空間的組件,具有優越的時空建模能力和靈活的運動感知建模能力,同時,D3Dnet還實現了當時的SOTA

方法

可變形3D卷積

可變形3D卷積把3D卷積和在二維空間的可變性卷積結合在了一起,普通的C3D通過以下兩個步驟實現:

1)對輸入特徵x使用三維卷積核進行採樣

2)用函數w對採樣值進行加權求和

具體地說,通過一個膨脹率爲1的3×3×3卷積核的特徵可以表示爲:

D3D是在C3D的基礎上改進而來的,它可學習偏移量從而擴大空間感受野。首先將尺寸爲C×T×W×H的輸入特徵輸入到C3D,以生成尺寸爲2N×T×W×H的特徵偏移,這些特徵偏移的通道數被設置爲2N。然後,利用學習到的特徵偏移引導普通C3D採樣網格(即淺橙色立方體)的變形,生成D3D採樣網格(即深橙色立方體)。最後,利用D3D採樣網格生成輸出特徵,公式如下:

 

可變形三維卷積網絡

首先將具有7幀的視頻序列饋入到C3D層以生成特徵,然後將這些特徵饋入到5個殘差D3D(resD3D)塊以實現運動感知的深層時空特徵提取。然後利用瓶頸層對提取的特徵進行融合。最後,由6個級聯的殘差塊和一個亞像素卷積層來進行SR重建。使用均方誤差(MSE)作爲網絡的訓練損失。

實驗

實施細節

使用Vimeo-90k數據集作爲訓練集。採用BI的降質方式,然後,隨機裁剪成32×32大小的patch作爲輸入。使用隨機翻轉和旋轉來增加訓練數據。此外,還額外使用基於運動的視頻完整性評價指標MOVIE和時間MOVIE(T-MOVIE)來評價時間一致性。

消融實驗

對於兩階段模型,使用n個殘差塊和可變形對齊模塊替換resD3D塊去依次執行空間特徵提取和時間運動補償。對於單階段模型,將resD3D塊替換爲resC3D塊,以便在不發生空間變形的情況下將這兩個步驟整合在一起,對比如下圖:

採用C3D比雙階段方法高0.1的PSNR。採用resD3D比C3D高0.4PSNR,但是要增加0.19M的參數量。

D3Dnet在不同輸入幀數(3、5、7)下的結果如下圖所示

可以觀察到,隨着輸入幀數的增加,性能有所提高。具體地說,當輸入幀數從3增加到7時,PSNR提高了0.3dB。這是因爲更多的輸入幀引入了額外的時間信息,這對視頻SR是有利的。

量化評估

下圖的性能評估中,不計算前兩幀和後兩幀。此外,EDVR和DUF-VSR沒有包括在下圖的比較中,因爲計算成本差距很大。

在時間一致性上表現良好。運算時間爲VID4測試集20幀測試時間,相比其他沒有使用3D卷積的方法,仍存在計算時間長的問題。

備註:作者也是我們「3D視覺從入門到精通」特邀嘉賓:一個超乾貨的3D視覺學習社區

本文僅做學術分享,如有侵權,請聯繫刪文。下載1在「計算機視覺工坊」公衆號後臺回覆:深度學習,即可下載深度學習算法、3D深度學習、深度學習框架、目標檢測、GAN等相關內容近30本pdf書籍。
下載2在「計算機視覺工坊」公衆號後臺回覆:計算機視覺,即可下載計算機視覺相關17本pdf書籍,包含計算機視覺算法、Python視覺實戰、Opencv3.0學習等。
下載3在「計算機視覺工坊」公衆號後臺回覆:SLAM,即可下載獨家SLAM相關視頻課程,包含視覺SLAM、激光SLAM精品課程。

重磅!計算機視覺工坊-學習交流羣已成立掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿 微信交流羣,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流羣,目前主要有ORB-SLAM系列源碼學習、3D視覺、CV&深度學習、SLAM、三維重建、點雲後處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、深度估計、學術交流、求職交流等微信羣,請掃描下面微信號加羣,備註:”研究方向+學校/公司+暱稱“,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備註,否則不予通過。添加成功後會根據研究方向邀請進去相關微信羣。原創投稿也請聯繫。▲長按加微信羣或投稿▲長按關注公衆號

3D視覺從入門到精通知識星球:針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發佈3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業爲一體的鐵桿粉絲聚集區,近2000星球成員爲創造更好的AI世界共同進步,知識星球入口:學習3D視覺核心技術,掃描查看介紹,3天內無條件退款

 圈裏有高質量教程資料、可答疑解惑、助你高效解決問題覺得有用,麻煩給個贊和在看~  

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章