論文筆記 Unsupervised Extraction of Video Highlights Via Robust Recurrent Auto-encoders

原創

2019-02-28 23:34

本文提出了一個視頻精彩片段檢測算法

之前的精彩視頻剪輯的方法常用的是處於監督學習或者啓發式規則下，本文采用的無監督學習的方法，同時也藉助到Youtube上各種各樣的用戶剪輯過的視頻用於訓練，同時作者考慮到在用戶剪輯過的視頻中，精彩部分出現的頻率和時長肯定會大於不是那麼精彩部分出現的時長。

視頻的highlights存在着三個巨大的挑戰，第一個是儘管大部分人對於highlight有着相同的概念但是出於主觀因素還是會存在不同點；第二個是在數據的收集上，如果再youtube上輸入GoPro surfing會存在着噪聲數據；第三點就是除了搜索到的視頻信息沒有其他信息是可用的。也不同於監督學習，我們的視頻數據中沒有對於highlight和非highlights的定義。

這篇文章提出了兩個motivations

第一個是對於同一類型的許多video，highlights在這些video中必定是頻繁出現的，同時如果視頻是用戶上傳並剪輯過的視頻，那麼highlights的畫面出現的必定更加的頻繁，因此可以認爲在同一類型的video中存在着相似性。

第二個是作者提出了一個models建立在a robust recurrent auto-encoder with a shrinking exponential loss function and bidirectional LSTM cells ，同時對於video的highlight的detection採用非監督學習的方法，這樣能夠充分利用網絡上短視頻的多樣性。

Auto-Encoder-Based Removal of Outliers

作者這裏建立了一個Encoder用於移除輸入數據中的噪聲，即將輸入視頻中異常的視頻移除出數據集。這裏設計的自動編碼器也是一個神經網絡能夠重建輸入的數據，同時重建後的數據就表示爲原數據的壓縮形式。

Encoder實現的方法就是用含有一個隱藏層的神經網絡進行reconstruction.

首先從輸入層映射到隱藏層，s爲激活函數，w,b爲可以學習參數，w維度爲d’*d，b是一個bias vector.

第二層也是相同的方式映射到輸出層，

因此最後的輸出Y就是；

需要注意的是輸出層的節點數目和輸入節點的數目是相同的。

這裏的損失函數是，我們需要優化θ和θ’即該神經網絡的參數。損失函數用到了平方損失。

系統的整理過程有

Acquisition of Training Data：該方法就是在Youtube上用keyword搜索相關的視頻，比如所搜“gopro surfing”就可以找到相關的視頻，同時這些視頻的highlight中都存在着一點的相似性，收集好數據之後就可以通過auto-encoder進行預處理模型的訓練

Temporal Segmentation：進行視頻的時序上的切割，保證每一段都在48-96的幀數

Feature Representation:通過C3D的方式提取視頻的特徵（16 input frames）

Unsupervised Learning:這裏作者提出本文使用的是無監督學習，並不是多樣例學習的弱監督方式，（因爲：Since a video does not necessarily contain at least one highlight snippet, such as when the video is actually unrelated to the keyword, the bag and instance relationship is hard to define.）

下圖是訓練過程圖：