用於視頻超分辨率的可變形三維卷積

原創

2021-01-08 13:33

作者：Wangsy
來源：微信公衆號|3D視覺工坊（系投稿）
3D視覺精品文章彙總：https://github.com/qxiaofan/awesome-3D-Vision-Papers/

點擊上方“計算機視覺工坊”，選擇“星標”

乾貨第一時間送達

作者單位：電子科技大學、國防科技大學

譯者：Wangsy

論文、代碼地址：在公衆號「3D視覺工坊」，後臺回覆「三維卷積」，即可直接下載。

看點

問題：之前的方法的空間特徵提取和時間運動補償往往是順序的，無法充分利用時空信息

方法：提出了一個利用可變形3D卷積（D3D）的可變形三維卷積網絡（D3Dnet）來整合視頻的時空信息

優點：D3D作爲一個可以同時整合時間和空間的組件，具有優越的時空建模能力和靈活的運動感知建模能力，同時，D3Dnet還實現了當時的SOTA

方法

可變形3D卷積

可變形3D卷積把3D卷積和在二維空間的可變性卷積結合在了一起，普通的C3D通過以下兩個步驟實現：

1）對輸入特徵x使用三維卷積核進行採樣

2）用函數w對採樣值進行加權求和

具體地說，通過一個膨脹率爲1的3×3×3卷積核的特徵可以表示爲：

D3D是在C3D的基礎上改進而來的，它可學習偏移量從而擴大空間感受野。首先將尺寸爲C×T×W×H的輸入特徵輸入到C3D，以生成尺寸爲2N×T×W×H的特徵偏移，這些特徵偏移的通道數被設置爲2N。然後，利用學習到的特徵偏移引導普通C3D採樣網格（即淺橙色立方體）的變形，生成D3D採樣網格（即深橙色立方體）。最後，利用D3D採樣網格生成輸出特徵，公式如下：

可變形三維卷積網絡

首先將具有7幀的視頻序列饋入到C3D層以生成特徵，然後將這些特徵饋入到5個殘差D3D（resD3D）塊以實現運動感知的深層時空特徵提取。然後利用瓶頸層對提取的特徵進行融合。最後，由6個級聯的殘差塊和一個亞像素卷積層來進行SR重建。使用均方誤差（MSE）作爲網絡的訓練損失。

實驗

實施細節

使用Vimeo-90k數據集作爲訓練集。採用BI的降質方式，然後，隨機裁剪成32×32大小的patch作爲輸入。使用隨機翻轉和旋轉來增加訓練數據。此外，還額外使用基於運動的視頻完整性評價指標MOVIE和時間MOVIE（T-MOVIE）來評價時間一致性。

消融實驗

對於兩階段模型，使用n個殘差塊和可變形對齊模塊替換resD3D塊去依次執行空間特徵提取和時間運動補償。對於單階段模型，將resD3D塊替換爲resC3D塊，以便在不發生空間變形的情況下將這兩個步驟整合在一起，對比如下圖：

採用C3D比雙階段方法高0.1的PSNR。採用resD3D比C3D高0.4PSNR，但是要增加0.19M的參數量。

D3Dnet在不同輸入幀數（3、5、7）下的結果如下圖所示

可以觀察到，隨着輸入幀數的增加，性能有所提高。具體地說，當輸入幀數從3增加到7時，PSNR提高了0.3dB。這是因爲更多的輸入幀引入了額外的時間信息，這對視頻SR是有利的。

量化評估

下圖的性能評估中，不計算前兩幀和後兩幀。此外，EDVR和DUF-VSR沒有包括在下圖的比較中，因爲計算成本差距很大。

在時間一致性上表現良好。運算時間爲VID4測試集20幀測試時間，相比其他沒有使用3D卷積的方法，仍存在計算時間長的問題。

備註：作者也是我們「3D視覺從入門到精通」特邀嘉賓：一個超乾貨的3D視覺學習社區

本文僅做學術分享，如有侵權，請聯繫刪文。下載1在「計算機視覺工坊」公衆號後臺回覆：深度學習，即可下載深度學習算法、3D深度學習、深度學習框架、目標檢測、GAN等相關內容近30本pdf書籍。
下載2在「計算機視覺工坊」公衆號後臺回覆：計算機視覺，即可下載計算機視覺相關17本pdf書籍，包含計算機視覺算法、Python視覺實戰、Opencv3.0學習等。
下載3在「計算機視覺工坊」公衆號後臺回覆：SLAM，即可下載獨家SLAM相關視頻課程，包含視覺SLAM、激光SLAM精品課程。

重磅！計算機視覺工坊-學習交流羣已成立掃碼添加小助手微信，可申請加入3D視覺工坊-學術論文寫作與投稿微信交流羣，旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流羣，目前主要有ORB-SLAM系列源碼學習、3D視覺、CV&深度學習、SLAM、三維重建、點雲後處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、深度估計、學術交流、求職交流等微信羣，請掃描下面微信號加羣，備註：”研究方向+學校/公司+暱稱“，例如：”3D視覺 + 上海交大 + 靜靜“。請按照格式備註，否則不予通過。添加成功後會根據研究方向邀請進去相關微信羣。原創投稿也請聯繫。▲長按加微信羣或投稿▲長按關注公衆號

3D視覺從入門到精通知識星球：針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕，更有各類大廠的算法工程人員進行技術指導。與此同時，星球將聯合知名企業發佈3D視覺相關算法開發崗位以及項目對接信息，打造成集技術與就業爲一體的鐵桿粉絲聚集區，近2000星球成員爲創造更好的AI世界共同進步，知識星球入口：學習3D視覺核心技術，掃描查看介紹，3天內無條件退款

圈裏有高質量教程資料、可答疑解惑、助你高效解決問題覺得有用，麻煩給個贊和在看~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

用於視頻超分辨率的可變形三維卷積

可變形3D卷積

可變形三維卷積網絡

實施細節

消融實驗

量化評估

圈裏有高質量教程資料、可答疑解惑、助你高效解決問題覺得有用，麻煩給個贊和在看~

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

Bags of Binary Words | 詞袋模型解析

多視圖立體匹配論文分享：BlendedMVS

EF-Net一種適用於雙流SOD的有效檢測模型（Pattern Recognition）

Bundle Adjustment原理及應用(附實戰代碼)

一文詳解ORB-SLAM3中的地圖管理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結