[論文筆記]Predicting Deeper into the Future of Semantic Segmentation

原創

2020-07-01 05:16

引介

ICCV2017的文章，arXiv:1703.07684 [cs.CV]，本文有LeCun的署名.

Abstract

預測接下來視頻幀的單純的RGB像素值已經被研究了很久，本文提出了一種新奇的任務——預測接下來的視頻幀的語義分割.
同時，本文提出了一種自動迴歸CNN(AR-CNN)來進行迭代生成多幀.

Model

數據

採用Cityscapes數據集，分辨率轉化爲128x256.
採用的度量標準是PSNR(Peak Signal to Noise Ration)、SSIM(Structural Similarity Index Measure)、MIoU等.
由於視頻的標註數據很少，並且不容易獲取，因此本文采用比較先進的方法(Dilated10)在Cityscapes的視頻上進行數據的標註，作爲label.

單幀預測

baseline:
（1）拷貝最後一幀（2）使用optical flow包裹最後一幀

建立了多種網絡進行比較:
X2X(現實預測現實)
S2S(分割預測分割)
XS2X、XS2S、XS2XS
採用一種Multi-scale架構進行訓練

注意點:
(1)使用softmax的pre-activations，認爲這種方式包含了更多的信息
(2)loss function使用了一種變種:

（3）另外也嘗試了使用gan和VAE進行訓練

預測未來更長時間

使用自動迴歸CNN，S1:t預測St，S2:t+1預測St，逐步預測更深。
分別嘗試了0.18s、5s、10s的預測，具體方式在現實的圖像中採樣4幀，輸出未來的幾幀，說起來比較複雜，其實做法很簡單，具體參考論文吧.

Summary

對我來說，本文最終要的幾點是：(1)考慮到直接預測未來場景很困難，但是先從分割到分割比較容易（2）考慮到視頻標註數據集比較少，採用先進的方法進行生成（3）提出了一種自動迴歸的方法，但是沒有太多的細節

Thinking

直接預測未來的RGB現實圖片可能比較難，根據本文的啓發，能不能從現實的RGB->現實的分割->未來的分割->未來的RGB.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[論文筆記]Predicting Deeper into the Future of Semantic Segmentation

引介

Abstract

Model

數據

單幀預測

預測未來更長時間

Summary

Thinking

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

[DeCAF]DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition

[SDS]Simultaneous Detection and Segmentation

[SDN]Stacked Deconvolutional Network for Semantic Segmentation

[linux使用]Ubuntu16.04屏幕分辨率無法調節

[論文筆記]Predicting Deeper into the Future of Semantic Segmentation

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結