一个生成自然场景视频模型的基线

Video（Language）Modeling： A Baseline for Generative Models of Natural Videos

从自然语言处理的经典方法中获得启示，例如 n-grams， neural net language models (Bengio et al., 2003) 和recurrent neural networks(Mikolov et al., 2010)等等。关注的任务包括generation 和filling task，应该就对应现在常说的extrapolation 和 interpolation 任务了。

核心观点：

1. 生成模型的计算最后都会归结到对词序列（X1, X2, ... , Xt）的联合概率分布的估计:

，文中给出三种估计方法

（1）n-grams
waiting……
（2）neural net language models
waiting……
（3）recurrent neural networks（RNN）
[译] 理解 LSTM 网络已经把RNN和LSTM解释得非常好了，不再赘述。

2. 将自然语言处理的生成模型迁移到视频的生成上

迁移的过程中需要进行一些调整：

（1）语句是由单词构成的，因此是离散的，但视频在空间和时间上都是连续的，无法直接用，有两种方法进行调整：

a. 运用MSR替代交叉熵loss;
b. 将视频离散成帧来处理.
a容易导致模型为了得到较低的重建误差而仅仅模糊最后一帧（导致为了减小误差而产生模糊的帧图像），因此选用b。

(2) 词语构成词典后得到的序列可以是整数集合，在视频生成中使用一个非常系数的特征空间来替代词典，使用k-means方法对人为确定尺寸后的patch进行编码。虽然这种稀疏执行对于什么是可行的重构有很强的约束，因为k-means atoms会将输出空间参数化。但是，视频预测问题反而是更简单的，因为视频模型只需要决定下一个预测应该在输出空间的哪个位置。另一方面，即使选用的质心不大，但在图像或视频序列中合理地出现的质心组合是个庞大的集合，因此预测仍然具有意义。

实验方法：

两种任务：预测中间的若干帧（filling）、预测后面帧（generation）

数据集：UCF-101 DATASET、van Hateren's dataset

一个生成自然场景视频模型的基线

核心观点：

1. 生成模型的计算最后都会归结到对词序列（X1, X2, ... , Xt）的联合概率分布的估计:

，文中给出三种估计方法

2. 将自然语言处理的生成模型迁移到视频的生成上

实验方法：

工作中用到的脚本合集

24-5-18 X

[leetcode刷題python] 求衆數

LeetCode python刷題筆記

報錯記錄：'module' object has no attribute 'compute_ssim'

關於牛客網代碼題數據讀取問題的小白指南

一個生成自然場景視頻模型的基線

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結