AI防抖，穩如老狗？臺灣大學和谷歌提出NeRViS：無需裁剪的全幀視頻穩定算法

原創

2021-04-14 21:15

點擊上方“AI算法與圖像處理”，選擇加"星標"或“置頂”
重磅乾貨，第一時間送達

魚羊發自凹非寺
來源：量子位（QbitAI）

右邊的畫面，是不是比左邊的畫面看上去穩定許多？

這樣的效果，大家可能並不陌生。現在，不少手機廠商都爲自家手機配備了類似的防抖算法，爲你拍攝生活Vlog提供便利。

不過，目前的智能手機在面對複雜的抖動時，主要是通過電子防抖（EIS）的方式來實現畫面的穩定。

也就是說，需要對畫面的邊界進行裁剪，通過“後期處理”，實現畫面的穩定：

△圖片來自TDK

而現在，一項來自臺灣大學、谷歌、弗吉尼亞理工大學和加州大學默塞德分校等研究機構的論文，提出了一種無需裁剪的全幀視頻穩定算法。

NeRViS

Neural Re-rendering for Full-frame Video Stabilization

論文：https://arxiv.org/abs/2102.06205

項目：https://alex04072000.github.io/NeRViS

代碼：https://github.com/alex04072000/NeRViS

即使是奔跑中拍攝的畫面，也能穩定不少。

那麼，這隻AI具體是如何做到防抖的？

方法原理

該方法的核心思想，是融合視頻中多個相鄰幀的信息，來呈現無需裁剪的完整穩定視頻。

具體而言，對於輸入視頻，首先對每一幀圖像特徵進行編碼，並在目標時間戳處將相鄰幀翹曲至虛擬相機空間。

這裏面主要用到了目標幀到關鍵幀的翹曲場，以及從關鍵幀到相鄰幀的估計光流兩個信息，這樣，就可以通過鏈接流向量，計算目標幀到相鄰幀的翹曲場。

然後，融合這些特徵。

傳統的全景圖像拼接算法通常是在圖像級別進行融合。這樣做的缺點在於，如果估計光流不可靠，就會產生僞影。

而將圖像編碼爲CNN特徵，再在特徵空間中進行融合的方法更具魯棒性，但又往往會產生過於模糊的圖像（如下圖b）。

於是，研究人員提出結合兩種策略的優點：首先將圖像編碼爲CNN特徵，然後從多個幀中融合翹曲特徵。

對於每個源幀，研究人員將融合特徵圖和各個翹曲特徵一起，解碼成輸出幀和相關的置信度圖。

最後，通過使用生成圖像的加權平均，來產生最終的輸出幀。

實驗結果

研究人員在NUS數據集和自拍視頻數據集上驗證了該方法。

△標紅的爲最佳結果

在上表中，DIFRINT方法同樣是無需裁剪的方法。雖然該方法在失真值（distortion value）上略優於本文方法，但如下圖所示，DIFRINT的結果中有明顯的局部失真。

總體而言，本文提出的方法優於此前的SOTA方法。

不過，論文也談到了該方法的侷限性，比如對捲簾式快門無效；如果視頻幀間亮度變化很大，會導致明顯的接縫；預處理階段的平滑方法可能會導致失真等。

傳送門

根據作者介紹，該項目即將開源，如果感興趣，不妨先mark一下~

代碼地址：

https://github.com/alex04072000/NeRViS

  
      
      
      
   
       
       
       個人微信（如果沒有備註不拉羣！）
  
      
      
      
  
      
      
      
   
       
       
       請註明：
   
       
       
       地區+學校/企業+研究方向+暱稱
  
      
      
      
  
      
      
      
   
       
       
       

  
      
      
      


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


    
    
    
 
     
     
     下載3 CVPR2021

    
    
    

    
    
    
 
     
     
     


    
    
    

    
    
    
 
     
     
     在「AI算法與圖像處理」公衆號後臺回覆：
 
     
     
     CVPR
 
     
     
     ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮，告訴大家你也在看

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AI防抖，穩如老狗？臺灣大學和谷歌提出NeRViS：無需裁剪的全幀視頻穩定算法

魚羊發自凹非寺
來源：量子位（QbitAI）

△圖片來自TDK

NeRViS

Neural Re-rendering for Full-frame Video Stabilization

方法原理

實驗結果

△標紅的爲最佳結果

傳送門

如何熟悉一個陌生系統

裁員了！別錯過2024年大數據工程師必備的10項技能

更換容器內的源

【安裝部署】Apache SeaTunnel 和 Web快速安裝詳解

低代碼集成Java系列：高效構建自定義插件

別魔改網絡了，Google研究員：模型精度不高，是因爲你的Resize方法不夠好！

深度學習中圖像分割經典算法和必備知識點整理

算！力！羊！毛！5000核時計算資源終於開放使用了！

部署教程 | ResNet原理+PyTorch復現+ONNX+TensorRT int8量化部署

YOLOS：通過目標檢測重新思考Transformer（附源代碼）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

AI防抖，穩如老狗？臺灣大學和谷歌提出NeRViS：無需裁剪的全幀視頻穩定算法

魚羊 發自 凹非寺 來源：量子位（QbitAI）

△圖片來自TDK

NeRViS

Neural Re-rendering for Full-frame Video Stabilization

方法原理

實驗結果

△標紅的爲最佳結果

傳送門

魚羊發自凹非寺
來源：量子位（QbitAI）