一個生成自然場景視頻模型的基線

Video(Language)Modeling: A Baseline for Generative Models of Natural Videos

從自然語言處理的經典方法中獲得啓示,例如 n-grams, neural net language models (Bengio et al., 2003) 和recurrent neural networks(Mikolov et al., 2010)等等。關注的任務包括generation 和filling task,應該就對應現在常說的extrapolation 和 interpolation 任務了。

核心觀點:

1. 生成模型的計算最後都會歸結到對詞序列(X1, X2, ... , Xt)的聯合概率分佈的估計:
,文中給出三種估計方法
(1)n-grams
         waiting……

(2)neural net language models

         waiting……

(3)recurrent neural networks(RNN)

        [譯] 理解 LSTM 網絡  已經把RNN和LSTM解釋得非常好了,不再贅述。

2. 將自然語言處理的生成模型遷移到視頻的生成上

遷移的過程中需要進行一些調整:

(1)語句是由單詞構成的,因此是離散的,但視頻在空間和時間上都是連續的,無法直接用,有兩種方法進行調整:

a. 運用MSR替代交叉熵loss;

b. 將視頻離散成幀來處理.

a容易導致模型爲了得到較低的重建誤差而僅僅模糊最後一幀(導致爲了減小誤差而產生模糊的幀圖像),因此選用b。

(2) 詞語構成詞典後得到的序列可以是整數集合,在視頻生成中使用一個非常係數的特徵空間來替代詞典,使用k-means方法對人爲確定尺寸後的patch進行編碼。雖然這種稀疏執行對於什麼是可行的重構有很強的約束,因爲k-means atoms會將輸出空間參數化。但是,視頻預測問題反而是更簡單的,因爲視頻模型只需要決定下一個預測應該在輸出空間的哪個位置。另一方面,即使選用的質心不大,但在圖像或視頻序列中合理地出現的質心組合是個龐大的集合,因此預測仍然具有意義。

實驗方法:

兩種任務:預測中間的若干幀(filling)、預測後面幀(generation)

數據集:UCF-101 DATASET、van Hateren's dataset



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章