一个生成自然场景视频模型的基线

Video(Language)Modeling: A Baseline for Generative Models of Natural Videos

从自然语言处理的经典方法中获得启示,例如 n-grams, neural net language models (Bengio et al., 2003) 和recurrent neural networks(Mikolov et al., 2010)等等。关注的任务包括generation 和filling task,应该就对应现在常说的extrapolation 和 interpolation 任务了。

核心观点:

1. 生成模型的计算最后都会归结到对词序列(X1, X2, ... , Xt)的联合概率分布的估计:
,文中给出三种估计方法
(1)n-grams
         waiting……

(2)neural net language models

         waiting……

(3)recurrent neural networks(RNN)

        [译] 理解 LSTM 网络  已经把RNN和LSTM解释得非常好了,不再赘述。

2. 将自然语言处理的生成模型迁移到视频的生成上

迁移的过程中需要进行一些调整:

(1)语句是由单词构成的,因此是离散的,但视频在空间和时间上都是连续的,无法直接用,有两种方法进行调整:

a. 运用MSR替代交叉熵loss;

b. 将视频离散成帧来处理.

a容易导致模型为了得到较低的重建误差而仅仅模糊最后一帧(导致为了减小误差而产生模糊的帧图像),因此选用b。

(2) 词语构成词典后得到的序列可以是整数集合,在视频生成中使用一个非常系数的特征空间来替代词典,使用k-means方法对人为确定尺寸后的patch进行编码。虽然这种稀疏执行对于什么是可行的重构有很强的约束,因为k-means atoms会将输出空间参数化。但是,视频预测问题反而是更简单的,因为视频模型只需要决定下一个预测应该在输出空间的哪个位置。另一方面,即使选用的质心不大,但在图像或视频序列中合理地出现的质心组合是个庞大的集合,因此预测仍然具有意义。

实验方法:

两种任务:预测中间的若干帧(filling)、预测后面帧(generation)

数据集:UCF-101 DATASET、van Hateren's dataset



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章