一個生成自然場景視頻模型的基線

Video（Language）Modeling： A Baseline for Generative Models of Natural Videos

從自然語言處理的經典方法中獲得啓示，例如 n-grams， neural net language models (Bengio et al., 2003) 和recurrent neural networks(Mikolov et al., 2010)等等。關注的任務包括generation 和filling task，應該就對應現在常說的extrapolation 和 interpolation 任務了。

核心觀點：

1. 生成模型的計算最後都會歸結到對詞序列（X1, X2, ... , Xt）的聯合概率分佈的估計:

，文中給出三種估計方法

（1）n-grams
waiting……
（2）neural net language models
waiting……
（3）recurrent neural networks（RNN）
[譯] 理解 LSTM 網絡已經把RNN和LSTM解釋得非常好了，不再贅述。

2. 將自然語言處理的生成模型遷移到視頻的生成上

遷移的過程中需要進行一些調整：

（1）語句是由單詞構成的，因此是離散的，但視頻在空間和時間上都是連續的，無法直接用，有兩種方法進行調整：

a. 運用MSR替代交叉熵loss;
b. 將視頻離散成幀來處理.
a容易導致模型爲了得到較低的重建誤差而僅僅模糊最後一幀（導致爲了減小誤差而產生模糊的幀圖像），因此選用b。

(2) 詞語構成詞典後得到的序列可以是整數集合，在視頻生成中使用一個非常係數的特徵空間來替代詞典，使用k-means方法對人爲確定尺寸後的patch進行編碼。雖然這種稀疏執行對於什麼是可行的重構有很強的約束，因爲k-means atoms會將輸出空間參數化。但是，視頻預測問題反而是更簡單的，因爲視頻模型只需要決定下一個預測應該在輸出空間的哪個位置。另一方面，即使選用的質心不大，但在圖像或視頻序列中合理地出現的質心組合是個龐大的集合，因此預測仍然具有意義。

實驗方法：

兩種任務：預測中間的若干幀（filling）、預測後面幀（generation）

數據集：UCF-101 DATASET、van Hateren's dataset

一個生成自然場景視頻模型的基線

核心觀點：

1. 生成模型的計算最後都會歸結到對詞序列（X1, X2, ... , Xt）的聯合概率分佈的估計:

，文中給出三種估計方法

2. 將自然語言處理的生成模型遷移到視頻的生成上

實驗方法：

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

[leetcode刷題python] 求衆數

LeetCode python刷題筆記

報錯記錄：'module' object has no attribute 'compute_ssim'

關於牛客網代碼題數據讀取問題的小白指南

一個生成自然場景視頻模型的基線

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結