2017-8-23
Generating Videos with Scene Dynamics
1.基本信息
發表在NIPS2016;
2.簡介
這篇論文介紹的是利用大量的無標籤視頻數據訓練生成對抗網絡GAN從而得到可以生成視頻序列的模型。實驗表明模型可以更好的以全幀率的速度產生小視頻,可以合理的預測靜態圖像接下來要發生什麼,此外的實驗和可視化表明模型可以用弱監督學習內部有用的特徵來識別動作,表明動態場景對於表徵學習有發展前景。
實驗表明,該模型可以比單純基線更好地以全幀速率產生一秒鐘的小視頻,並且我們可以預測靜態圖像的合理期望。 此外,實驗和可視化表明,該模型在內部學習有用的功能,以最小的監督來識別動作,表明場景動力學是表徵學習的有希望的信號。
3.網絡模型介紹
3.1生成對抗網絡基礎
GAN是本文的基礎,生成對抗網絡的基本思想就是訓練兩個網絡:一個生成器網絡,一個判別器網絡。生成器網絡G試圖生成一個視頻,判別器網絡來判斷這個視頻是真實的視頻還是欺騙的生成視頻。
下圖爲來自知乎(https://zhuanlan.zhihu.com/p/26499443)的生成圖片的GAN:
3.2生成器網絡
如圖
生成器網絡的輸入是低維的隱編碼,可以從一個分佈函數採樣得到,我們希望給定編碼z,生成器網絡要生成一個視頻。文章探索了兩種不同的網絡結構。
One Stream Architecture:
結合時空三維卷積(spatio-temporal convolutions)和反捲積(fractionally strided convolutions)來生成視頻,三維卷積提供空間和時間不變性,反捲積可以在深度網絡中更有效地實現上採樣。本文使用的網絡結構受到《Unsupervised representation learning with deep convolutional generative adversarial networks》的啓發,在該論文的基礎上添加了時間的維度,本文網絡結構有五層,除了第一層使用的2×4×4的卷積核(time×width×height),其他層使用的是4×4×4的卷積核,步長爲2。
Two Stream Architecture:
one stream architecture的結構不能描述通常世界是靜止的只有目標運動的,本文嘗試用模型顯示的表示這種現象,強制背景是靜態的目標時動態的。
實驗中生成器最終產生的是64×64分辨率的32幀視頻。
3.3判別器網絡
判別器應該解決的兩個問題是:首先必須能夠區分真是的場景和合成的場景,其次必須能夠識別出幀之間的實際運動。本文使用的是一個五層的時空卷積網絡,卷積核是4×4×4,網絡的結構是生成器中前景生成網絡的反向過程,將其中的反捲積過程(上採樣)變成了卷積過程(下采樣),將最後一層變成了二分類輸出。
(要想完整的理解整個流程,需要再仔細看一下GAN相關的)
4.實驗
(實驗部分沒仔細看)
思考:這篇論文的想法應該是把GAN用在視頻場景生成,利用了時空三維卷積和反捲積等。應該算是在GAN基礎上的擴展吧
5.下一篇
下一篇要讀的是《Visual Dynamics: Probabilistic Future Frame Synthesis via Cross Convolutional Networks》。
如果您覺得本文有哪些錯誤,歡迎及時告知糾正,也渴望相關方向的朋友一起交流~