AI防抖,穩如老狗?臺灣大學和谷歌提出NeRViS:無需裁剪的全幀視頻穩定算法

點擊上方AI算法與圖像處理”,選擇加"星標"或“置頂”

重磅乾貨,第一時間送達


魚羊 發自 凹非寺
來源:量子位(QbitAI)

右邊的畫面,是不是比左邊的畫面看上去穩定許多?

這樣的效果,大家可能並不陌生。現在,不少手機廠商都爲自家手機配備了類似的防抖算法,爲你拍攝生活Vlog提供便利。

不過,目前的智能手機在面對複雜的抖動時,主要是通過電子防抖(EIS)的方式來實現畫面的穩定。

也就是說,需要對畫面的邊界進行裁剪,通過“後期處理”,實現畫面的穩定:

圖片來自TDK

而現在,一項來自臺灣大學、谷歌、弗吉尼亞理工大學和加州大學默塞德分校等研究機構的論文,提出了一種無需裁剪的全幀視頻穩定算法

NeRViS

Neural Re-rendering for Full-frame Video Stabilization

論文:https://arxiv.org/abs/2102.06205

項目:https://alex04072000.github.io/NeRViS

代碼:https://github.com/alex04072000/NeRViS

即使是奔跑中拍攝的畫面,也能穩定不少。

那麼,這隻AI具體是如何做到防抖的?

方法原理

該方法的核心思想,是融合視頻中多個相鄰幀的信息,來呈現無需裁剪的完整穩定視頻。

具體而言,對於輸入視頻,首先對每一幀圖像特徵進行編碼,並在目標時間戳處將相鄰幀翹曲至虛擬相機空間。

這裏面主要用到了目標幀到關鍵幀的翹曲場,以及從關鍵幀到相鄰幀的估計光流兩個信息,這樣,就可以通過鏈接流向量,計算目標幀到相鄰幀的翹曲場。

然後,融合這些特徵。

傳統的全景圖像拼接算法通常是在圖像級別進行融合。這樣做的缺點在於,如果估計光流不可靠,就會產生僞影。

而將圖像編碼爲CNN特徵,再在特徵空間中進行融合的方法更具魯棒性,但又往往會產生過於模糊的圖像(如下圖b)。

於是,研究人員提出結合兩種策略的優點:首先將圖像編碼爲CNN特徵,然後從多個幀中融合翹曲特徵。

對於每個源幀,研究人員將融合特徵圖和各個翹曲特徵一起,解碼成輸出幀和相關的置信度圖。

最後,通過使用生成圖像的加權平均,來產生最終的輸出幀。

實驗結果

研究人員在NUS數據集和自拍視頻數據集上驗證了該方法。

標紅的爲最佳結果

在上表中,DIFRINT方法同樣是無需裁剪的方法。雖然該方法在失真值(distortion value)上略優於本文方法,但如下圖所示,DIFRINT的結果中有明顯的局部失真。

總體而言,本文提出的方法優於此前的SOTA方法。

不過,論文也談到了該方法的侷限性,比如對捲簾式快門無效;如果視頻幀間亮度變化很大,會導致明顯的接縫;預處理階段的平滑方法可能會導致失真等。

傳送門

根據作者介紹,該項目即將開源,如果感興趣,不妨先mark一下~

代碼地址:

https://github.com/alex04072000/NeRViS


  
      
      
      
個人微信(如果沒有備註不拉羣!
請註明: 地區+學校/企業+研究方向+暱稱



下載1:何愷明頂會分享


AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析


下載2:終身受益的編程指南:Google編程風格指南


AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!




    
    
    
下載3 CVPR2021

AI算法與圖像處公衆號後臺回覆: CVPR 即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮 ,告訴大家你也在看


本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章