Video(Language)Modeling: A Baseline for Generative Models of Natural Videos
從自然語言處理的經典方法中獲得啓示,例如 n-grams, neural net language models (Bengio et al., 2003) 和recurrent neural networks(Mikolov et al., 2010)等等。關注的任務包括generation 和filling task,應該就對應現在常說的extrapolation 和 interpolation 任務了。
核心觀點:
1. 生成模型的計算最後都會歸結到對詞序列(X1, X2, ... , Xt)的聯合概率分佈的估計:
,文中給出三種估計方法
(1)n-grams
waiting……(2)neural net language models
waiting……
(3)recurrent neural networks(RNN)[譯] 理解 LSTM 網絡 已經把RNN和LSTM解釋得非常好了,不再贅述。
2. 將自然語言處理的生成模型遷移到視頻的生成上
遷移的過程中需要進行一些調整:
(1)語句是由單詞構成的,因此是離散的,但視頻在空間和時間上都是連續的,無法直接用,有兩種方法進行調整:
a. 運用MSR替代交叉熵loss;
b. 將視頻離散成幀來處理.
a容易導致模型爲了得到較低的重建誤差而僅僅模糊最後一幀(導致爲了減小誤差而產生模糊的幀圖像),因此選用b。
(2) 詞語構成詞典後得到的序列可以是整數集合,在視頻生成中使用一個非常係數的特徵空間來替代詞典,使用k-means方法對人爲確定尺寸後的patch進行編碼。雖然這種稀疏執行對於什麼是可行的重構有很強的約束,因爲k-means atoms會將輸出空間參數化。但是,視頻預測問題反而是更簡單的,因爲視頻模型只需要決定下一個預測應該在輸出空間的哪個位置。另一方面,即使選用的質心不大,但在圖像或視頻序列中合理地出現的質心組合是個龐大的集合,因此預測仍然具有意義。
實驗方法:
兩種任務:預測中間的若干幀(filling)、預測後面幀(generation)
數據集:UCF-101 DATASET、van Hateren's dataset