【論文復現】FastDVDNet: Towards Real-Time Video Denoising Without Explicit Motion Estimation

0.GitHub

已開源 FastDVDNet: https://github.com/z-bingo/FastDVDNet

1. Introduction

FastDVDNet是一種視頻去噪中的STOA方法,與其他STOA方法有着相近或者更好的性能,但是有着更低的時間複雜度。
計算機視覺中,對於視頻去噪的研究相對較少,大多方法還是基於傳統的算法,如VBM4D等non-local的方法,還有一些方法是圖像去噪方法的簡單擴展。由於視頻有着較強的時間相關性,那麼一個好的視頻去噪算法必將要充分利用這一特點。利用時間相關性主要體現爲兩個方面:

  1. 對於給定的patch,不僅要在同一幀的相鄰區域搜索像素的patch,也要在時間相近的frame上進行搜索;
  2. 使用相鄰時間的frame還可以有效減少flockering,因爲每一幀之間的殘餘就會是相關的。

爲了解決motion帶來的對齊困難問題,DVDNet中使用光流進行了顯式的估計,但是光流的計算是比較耗時的,即便是快速算法也是如此。對於encoder-decoder結構的U-Net,其本身具有在感受也範圍內對齊的功能,因此,在FastDVDNet中採用了這種做法,也就提高了性能。

2. Network Architecture

Architecture of FastDVDNet
Fig. 1是FastDVDNet是結構圖,通常連續5幀和一個噪聲的估計一起作爲網絡的輸入,從網絡的top view來看FastDVDNet是一個two-stage的結構,5幀圖像分爲三組作爲Block1的輸入,三個Block1的輸出又作爲Block2的輸入。其中,三個Block1共享參數,Block1和Block2有着相同的結構,如Fig. 1(b),是一個修改版的U-Net網絡。值得注意的是,相較於original U-Net,此處的網絡有2個下采樣層(U-Net有4個),且下采樣並非通過pool來實現,而是通過stride爲2的Conv層實現的;此外,上採樣也沒有通過Bilinear插值或deconv來實現,而是通過PixelShuffle來實現。相較於DVDNet,FastDVDNet的結構就非常簡單了。

3. Loss Function

在圖像/視頻去噪領域中,L1 Loss使用較多,因爲L1 Loss可以保護去噪後圖像的整體信息;較爲不同的是,FastDVDNet使用了L2 Loss。

4. Results and Analysis

已經使用PyTorch復現了改論文,沒有使用文中使用的DAVIS數據集,而是使用了Vimeo-90K數據集,該數據集專用於圖像增強等領域,包含了接近90K組圖像幀,每組數據爲7幀,每幀圖像分辨率爲448*256。目前,網絡正在訓練中,後續(本月中旬)會將訓練好的模型上傳至github,代碼現已開源至我的github,歡迎各位批評指正!

由於訓練尚未結束,暫不討論該模型在Vimeo-90K數據集上的表現能力,先討論其在DAVIS數據集上、噪聲爲加性高斯噪聲(AWGN)時的去噪性能。

4.1 two-stage結構必要性

如Fig. 1所示,FastDVDNet採用了two-stage結構,連續5幀圖像首先分爲三組右Block 1提取特徵,進而,三個共享參數的Block 1的輸出作爲Block 2的輸出進一步地提取特徵、去噪。若該two-stage結構對於去噪任務是冗餘的,那麼,將two-stage結構改爲single-stage後,模型性能應幾乎保持不變。文中給出了相關的數據說明,假設FastDVDNet採用Fig. 3所示的single-stage結構,即,五幀圖像連接在一起作爲一個Block模塊的輸入,這無疑在很大程度上減少了學習參數,但Table 1中的數據表明,參數減少帶來的結果是性能下降。
single-stage FastDVDNet
Table 1

4.2 encoder-decoder結構必要性

encoder-decoder結構是一種典型的multi-scale結構,可以在不同的scale提取圖像的特徵,增大圖像感受野。在近年來對於圖像去噪的研究中,encoder-decoder結構的模型也佔了多數,但是也不乏有single-scale結構的網絡,如經典的DnCNN也有着很好的性能。文中,也通過實驗來證明了encoder-decoder結構的必要性,實驗結果如Table 2所示。
Table 2

4.3 結果分析

Fig. 4
Fig. 5
Fig. 6
Fig. 4 ~ Fig. 6是幾組不同算法和FastDVDNet的對比圖,Fig. 4中(d)爲FastDVDNet的去噪結果圖,Fig. 5和Fig. 6中(h)爲FastDVDNet的去噪效果圖,將圖片方法觀察其細節,可見,DVDNet和FastDVDNet去噪後的圖像細節保存較好,邊緣比較平滑。

References

[1] FastDVDNet:ToWards Real-Time Video Denoising Without Explicit Motion Estimation
[2] DVDNet: A Fast Network For Deep Video Denoising
[3] PyTorch
[4] Vimeo-90K

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章