論文介紹 -- Rethinking the Evaluation of Video Summaries

Rethinking the Evaluation of Video Summaries 這篇論文發表於2019年CVPR上。作者Mayu Otani等人是來自日本CyberAgent公司、大阪大學、芬蘭坦佩雷大學、奧盧大學的研究者。我首先要介紹一下Video Summarization(視頻概括)這個任務。Video Summarization從字面上理解就是視頻概括。概括視頻內容一般有兩種方式:第一種是用人類語言來描述視頻的內容,比如video captioning;第二種是提取視頻的關鍵幀來表述視頻的內容,同時儘量減少信息損失。視頻概括就屬於第二種。

在這篇論文中,作者發現用隨機算法來做視頻概括任務,其效果可以與世界上現有最好方法(state-of-the-art)相提並論。作者又用人類做的視頻概括標註做實驗。他們從人類標註中抽取出其中一條,與剩下的標註進行對比計算指標。他們驚奇地發現,在某些情況下,隨機算法的效果可以超過人工標註的結果。另有實驗表明,視頻分割的方式對視頻概括任務的結果影響最大。基於以上的觀察和問題,作者提出了新的評價指標和可視化方法。

視頻概括方法流程

目前主流的視頻概括方法流程主要包括三步:第一、重要度評估,評估視頻每幀的重要度分數;第二、基於幀重要度分數對視頻進行分割,將其切成一段段的;第三、視頻段選擇,根據視頻分割和重要度估計結果選擇若干段作爲視頻的概括。

近期主流的評估視頻概括結果好壞的手段就是計算人類標註和模型產生的概括之間的重合程度。F1-指標被用來衡量兩者之間的重合程度,如下式所示。

F1 = \frac{2PRE\cdot REC}{PRE+REC}

這裏PRE=\frac{\sum_{i=1}^N y_i \cdot y_i^*}{\sum_{i=1}^N y_i}REC=\frac{\sum_{i=1}^N y_i \cdot y_i^*}{\sum_{i=1}^N y_i^*}。PRE表示精確率,REC表示召回率。y_i表示模型產生的概括預測。y_i^*表示人類標註的結果。

主流數據集

目前該領域主要有兩個數據集,一個是SumMe,另一個是TVSum。前一個數據集包含從YouTube上獲取得到的25個視頻。每個視頻帶有15-18個人類標註的視頻概括。視頻概括包含的視頻時間長度小於原時間長度15%。TVSum包含50個YouTube視頻。每個視頻有標題和類別作爲元數據。與上一個數據集不同的是,TVSum在視頻中每隔兩秒就提供一個重要度分數。

隨機實驗

在隨機實驗中,作者使用了隨機產生的重要度分數和隨機進行的視頻分割。具體來說,隨機產生重要度分數就是獨立地等概率地從[0,1]中抽取一個小數。對於隨機的視頻分割,作者採用了一下方法:

1. 均勻分割,按時間等分;

2. 從單峯分佈隨機抽取一個數,作爲某一視頻段的幀數。

3. 從雙峯分佈中隨機抽取一個數,作爲某一視頻段的幀數。

4. 畫面變化分割(kernel temporal segmentation, KTS),選擇視頻畫面變化劇烈的時間點作爲視頻分割處。

5. 隨機畫面變化分割(randomized KTS),用KTS方法分割後,將分割點隨機排列,但是視頻內容順序不變。於是分割結果中視頻段長度分佈不變,但是每段中的視頻內容與KTS結果不同。

人類標註實驗

從每段視頻的所有人類標註中隨機抽取一個作爲模型做視頻概括的結果。仍舊將剩餘的人類標註作爲參考結果。將抽取出來的一條與其他進行比對,計算指標。

實驗結果

如上圖所示,隨機實驗的F1值與目前最好的模型不相上下。有時,KTS的實驗結果甚至好於最好模型的結果。

如上圖所示,隨機實驗的結果在個別情況下甚至好於人類標註的結果。

新的評估框架

作者使用重要度大小排序與人類標註重要度的排序結果的相關性來評估模型預測結果的好壞。具體來說,就是先將每幀分別按照模型預測的重要度和人類標註的重要度從大到小排序。然後用Kendall秩相關係數和Spearman相關係數來評估兩個排序結果的相關程度。相關程度越高,模型預測結果越好;相關程度越低,模型預測越差。

從上表可以看出,作者提出的評估方法充分拉開了現有模型和隨機實驗之間的差距,也來開了人類標註和現有模型之間的差異。

新的可視化方法

上圖就是作者提出的新的可視化方法。具體來說,就是首先計算每幀的人類標註的平均重要度分數。然後根據平均重要度分數從大到小對幀進行排序。接着根據這個排序結果,按照a_i=\sum_{t=1}^{i}\frac{s_t}{\sum_{j=1}^n s_j}來計算序列中每幀的標準化分數。這裏s_i表示第i幀用某種方法預測的重要度。最後以排序結果爲橫座標,以計算得到的a_i作爲縱座標畫出上圖。

總結

這篇論文主要就是利用隨機實驗來表明現有評價體系存在致命缺陷,並提出了新的評價方法和可視化方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章