論文筆記 Unsupervised Extraction of Video Highlights Via Robust Recurrent Auto-encoders

本文提出了一個視頻精彩片段檢測算法

之前的精彩視頻剪輯的方法常用的是處於監督學習或者啓發式規則下,本文采用的無監督學習的方法,同時也藉助到Youtube上各種各樣的用戶剪輯過的視頻用於訓練,同時作者考慮到在用戶剪輯過的視頻中,精彩部分出現的頻率和時長肯定會大於不是那麼精彩部分出現的時長。

視頻的highlights存在着三個巨大的挑戰,第一個是儘管大部分人對於highlight有着相同的概念但是出於主觀因素還是會存在不同點;第二個是在數據的收集上,如果再youtube上輸入GoPro surfing會存在着噪聲數據;第三點就是除了搜索到的視頻信息沒有其他信息是可用的。也不同於監督學習,我們的視頻數據中沒有對於highlight和非highlights的定義。

這篇文章提出了兩個motivations

第一個是對於同一類型的許多video,highlights在這些video中必定是頻繁出現的,同時如果視頻是用戶上傳並剪輯過的視頻,那麼highlights的畫面出現的必定更加的頻繁,因此可以認爲在同一類型的video中存在着相似性。

第二個是作者提出了一個models建立在a robust recurrent auto-encoder with a shrinking exponential loss function and bidirectional LSTM cells ,同時對於video的highlight的detection採用非監督學習的方法,這樣能夠充分利用網絡上短視頻的多樣性。

 

Auto-Encoder-Based Removal of Outliers

作者這裏建立了一個Encoder用於移除輸入數據中的噪聲,即將輸入視頻中異常的視頻移除出數據集。這裏設計的自動編碼器也是一個神經網絡能夠重建輸入的數據,同時重建後的數據就表示爲原數據的壓縮形式。

Encoder實現的方法就是用含有一個隱藏層的神經網絡進行reconstruction.

首先從輸入層映射到隱藏層,s爲激活函數,w,b爲可以學習參數,w維度爲d’*d,b是一個bias vector.

.

第二層也是相同的方式映射到輸出層,

因此最後的輸出Y就是 ;

需要注意的是輸出層的節點數目和輸入節點的數目是相同的。

這裏的損失函數是,我們需要優化θ和θ’即該神經網絡的參數。損失函數用到了平方損失。

系統的整理過程有

Acquisition of Training Data:該方法就是在Youtube上用keyword搜索相關的視頻,比如所搜“gopro surfing”就可以找到相關的視頻,同時這些視頻的highlight中都存在着一點的相似性,收集好數據之後就可以通過auto-encoder進行預處理模型的訓練

Temporal Segmentation:進行視頻的時序上的切割,保證每一段都在48-96的幀數

Feature Representation:通過C3D的方式提取視頻的特徵(16 input frames)

Unsupervised Learning:這裏作者提出本文使用的是無監督學習,並不是多樣例學習的弱監督方式,(因爲:Since a video does not necessarily contain at least one highlight snippet, such as when the video is actually unrelated to the keyword, the bag and instance relationship is hard to define.)

下圖是訓練過程圖:

Robust Autoencoder Via Shrinking Exponential Loss

爲了減少網上視頻數據中存在的負樣本,作者使用了一個方法來減少負樣本對損失函數的影響

同時作者考慮到在訓練一開始所有的數據形成的損失都很大,但是隨着訓練的進行,負樣本對損失函數的影響越來越大,因此λ的數值在一開始可以初始化的比較大,但是後面就要逐漸縮小λ的數值,以減少負樣本對損失函數的影響。因此作者設計了λ的變化函數。

Recurrent AutoEncoder with LSTM Cells

作者考慮到一個運動的過程肯定包含着運動前動作和運動後動作,這些都對highlight有着顯著的影響,因此作者採用雙向的lstm網絡

 

實驗

上圖是作者收集的數據。

作者比較了2D和3D卷積的結果。

 

同時還對λ的初始化進行了實驗,試驗不同的初始化對結果的影響:

 

總結

這篇文章主要提出了對highlight的一種無監督的方法,和如何通過網上的多樣性數據進行模型的訓練同時能夠減少負樣本數據對模型的影響。

 

我個人覺得如果能夠結合上音頻的信息進行處理效果應該會更好,因此就需要考慮到如何結合,最近看的論文還不多,後面也許會有些思路。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章