[論文筆記]Predicting Deeper into the Future of Semantic Segmentation

引介

ICCV2017的文章,arXiv:1703.07684 [cs.CV],本文有LeCun的署名.

Abstract

預測接下來視頻幀的單純的RGB像素值已經被研究了很久,本文提出了一種新奇的任務——預測接下來的視頻幀的語義分割.
同時,本文提出了一種自動迴歸CNN(AR-CNN)來進行迭代生成多幀.

Model

數據

採用Cityscapes數據集,分辨率轉化爲128x256.
採用的度量標準是PSNR(Peak Signal to Noise Ration)、SSIM(Structural Similarity Index Measure)、MIoU等.
由於視頻的標註數據很少,並且不容易獲取,因此本文采用比較先進的方法(Dilated10)在Cityscapes的視頻上進行數據的標註,作爲label.

單幀預測

baseline:
(1)拷貝最後一幀(2)使用optical flow包裹最後一幀

建立了多種網絡進行比較:
X2X(現實預測現實)
S2S(分割預測分割)
XS2X、XS2S、XS2XS
採用一種Multi-scale架構進行訓練

注意點:
(1)使用softmax的pre-activations,認爲這種方式包含了更多的信息
(2)loss function使用了一種變種:
1
1
(3)另外也嘗試了使用gan和VAE進行訓練

預測未來更長時間

使用自動迴歸CNN,S1:t預測St,S2:t+1預測St,逐步預測更深。
分別嘗試了0.18s、5s、10s的預測,具體方式在現實的圖像中採樣4幀,輸出未來的幾幀,說起來比較複雜,其實做法很簡單,具體參考論文吧.

Summary

對我來說,本文最終要的幾點是:(1)考慮到直接預測未來場景很困難,但是先從分割到分割比較容易(2)考慮到視頻標註數據集比較少,採用先進的方法進行生成(3)提出了一種自動迴歸的方法,但是沒有太多的細節

Thinking

直接預測未來的RGB現實圖片可能比較難,根據本文的啓發,能不能從現實的RGB->現實的分割->未來的分割->未來的RGB.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章