基於AI的視頻精彩度分析技術

前言

隨着視頻數量的爆發式增長,特別是近年來短視頻領域的迅速崛起,視頻已經成爲大部分互聯網用戶娛樂的首要選擇,佔據了用戶大部分娛樂時間。面對如此海量的視頻,如何幫助愛奇藝用戶從冗長的視頻中篩選出更具吸引力的視頻片段,提高用戶的觀看體驗,提升用戶粘性,成爲我們十分關注的研究課題。爲此,我們深入研究了視頻精彩度分析技術,成功實現了不同時間粒度下精彩視頻片段的自動篩選,並能給出片段包含的看點標籤,在多個業務場景中都得到了較好的應用效果。
愛奇藝擁有十分豐富的PPC(Professional Produced Content)視頻資源,視頻內容多樣,僅僅是綜藝就可分爲搞笑、選秀、訪談、情感、職場、脫口秀等十幾種類型,如果每個類型都建立一個精彩度模型,不僅資源消耗巨大,而且模型的自適應能力也將大大降低。學術界的精彩看點檢測技術大多聚焦於UGC(User Generated Content)視頻,且通常是針對特定領域視頻的分析,因而並不適合直接應用於愛奇藝的精彩度分析技術中。業界公開的關於視頻的精彩度探索比較少,較有影響力的爲2017年百度公開的Video Highlight數據集,該數據集包括1500個綜藝長視頻,視頻總時長約1200小時,只對片段進行了精彩/非精彩標註。如何針對愛奇藝多個業務場景的需求,對內容多樣的視頻建立通用精彩度模型,並對視頻內容進行更加精細化的精彩度分析,是我們面臨的主要挑戰。
本文將介紹我們探索出的視頻精彩度分析技術方案,整體技術框架如下:

圖1 視頻精彩度分析技術方案
該方案融合了監督模型、弱監督模型和明星、用戶片段截取等其他維度的信息,能夠綜合給出較爲符合人爲主觀評價的視頻精彩度評分。下面我們將詳細介紹各個模塊的具體技術解決方案。

視頻精彩度分析技術方案

1 視頻精彩度監督模型

我們的目標是對視頻的精彩度進行較爲準確的評分,而非簡單的精彩/非精彩二分類,因而我們將精彩度建模爲一個迴歸任務,而建立監督模型的前提是擁有高質量的標註數據集。我們的數據集來自5000多部愛奇藝影視劇和綜藝長視頻,每條數據爲10s左右的視頻切片,標註人員對切片根據精彩度進行打分0到10打分,並對精彩切片從場景、行爲、情感、對話等多個維度上人工打出精彩看點標籤,建立了包含超過36萬切片的視頻精彩度分析數據集。該數據集具有以下特點:

(1)數據集大,從頭訓練端到端的模型,訓練成本高;

(2)精彩度評分主觀性較大,標註人員對同類型切片的打分可能有1-3分的差異;

(3)精彩度評分與精彩看點標籤高度相關,精彩切片一定包含看點標籤;

(4)看點標籤爲多標籤,標籤內部具有較大的相關性,如搞笑和大笑、鼓掌和歡呼等。

針對數據集的以上特點,我們採用遷移學習,先提取多模態特徵對視頻切片進行表徵,再進行後續訓練,提高模型性能的同時大大降低了訓練成本;對於精彩度分數,採用標籤分佈學習算法去學習分數標籤的分佈,而非傳統的迴歸loss;對於看點標籤,我們採用典型相關自編碼器算法去學習標籤內部的相關性;最後我們採用了多任務學習模型,同時訓練精彩度分數和看點標籤,獲得了比單個任務更佳的性能。下圖是我們的精彩度監督模型技術框架。

圖 2 精彩度監督模型技術框架

下面我們分別詳細介紹各個技術模塊:

特徵提取

我們的數據集包含超過36萬的視頻切片,已經超過了行爲識別數據集kinetics-400的規模。研究表明,3D CNN是比2D CNN更好的視頻表徵模型,我們的實驗也證明了這一點,但同時3D CNN的模型參數也達到上千萬甚至上億。如果用幾十萬視頻數據從頭訓練3D CNN模型,每次超參數調優如batch size、學習率、正則係數、優化器等的組合變化,都需要幾十萬次的迭代才能看到效果,不僅需要耗費更多的計算資源和訓練時間,也可能會影響模型的最終效果。

因而,我們借鑑2D視覺任務中比較流行的基於預訓練的ImageNet模型進行遷移學習的做法,首先用基於kinetics-400訓練得到的行爲識別I3D模型,對我們的數據提取視頻特徵,基於視頻特徵進行網絡訓練。另外,我們還基於精彩度數據集對I3D的高層網絡進行了微調,用微調網絡提取視頻特徵比直接用原始I3D模型特徵效果更好。最後,我們考慮到視頻的精彩度不僅與視頻的視覺內容有關,還與音頻高度相關,因而我們用基於包含200萬個10秒音頻的AudioSet數據集訓練得到的Vggish模型,對我們的數據集提取音頻特徵,將音視頻特徵融合後輸入自己設計的神經網絡進行訓練,相比單模態特徵,採用多模態特徵使得模型性能得到了顯著提升。下圖是我們基於百度Video Highlight數據集進行精彩度二分類進行的實驗結果。

圖 3 不同模型提取特徵性能對比

2018年,在kinetics-600數據集公開後,我們在自己的精彩度數據集上,又進行了基於kinetics-600數據集預訓練模型進行特徵提取的實驗。實驗表明,相比微調後的kinetics-400模型,直接採用kinetics-600預訓練模型使得精彩度評分的mse下降了0.06,而再對kinetics-600預訓練模型進行網絡微調,則對精彩度評分的性能無顯著增益,因而,目前我們線上採用的視頻視覺特徵提取模型爲kinetics-600預訓練模型。

精彩度評分

精彩度評分的主觀性較強,如果想要獲得更加客觀真實的訓練數據分數標籤,需要多人對同一個視頻進行標註評分,標註成本巨大。我們的訓練集一條數據只有一個受訓過的專業人員進行標註,這不可避免的會導致標註分數與真實分數之間有一定差異。爲了降低人爲標註主觀因素對模型的干擾,我們採用深度標籤分佈學習(Deep Label Distribution Learning,DLDL),即將標註分數轉化爲一個分佈在0-10區間的一個分佈,而非直接去用模型擬合學習標註分數。具體地,假設對於數據X,標註分數爲S,我們用均值爲S,方差爲1的高斯分佈來擬合其分數分佈y,如下:

其中

爲歸一化參數。假定我們模型網絡的最後一層輸出爲x,我們用softmax激活函數將輸出轉化爲概率分佈,如下:

我們的目標是優化網路,使得網絡輸出分佈 ${\hat y}$ 與分數分佈y儘量相似。如果用KL散度衡量這兩個分佈的相似性,則損失目標函數爲:

訓練完成後,我們用模型輸出分佈的期望在作爲預測分數,即:

採用DLDL方法能夠有效建模精彩度分數標籤的不確定性,大大降低了標註噪聲的影響,相比使用常規的MSE迴歸loss,我們的精彩度評分準確性得到比較明顯的提升。

精彩看點標籤分類

由於一個視頻可能包含一個或多個彩看點標籤,因而我們的精彩看點標籤分類是一個多標籤分類任務。多標籤分類最簡單常用的方法是假設各個標籤之間無相關性,在輸出層對每一個標籤的輸出層使用sigmoid激活函數,採用二值交叉熵loss進行獨立的二分類。

上述思路存在的問題之一是沒有考慮標籤間的相關性,而這種相關性可能能夠提高特定問題上模型的效果,例如,在進行看點標籤分類時,搞笑和大笑經常一起出現,而搞笑與悲傷一起出現的概率則很低,如果能充分利用這種標籤間的相關性,則將進一步提升多標籤分類模型的效果。其中,標籤嵌入(Label Embedding)是常用的一種標籤關聯方法,它是將標籤轉換爲嵌入式標籤向量,從而來獲取標籤之間的相關性。我們借鑑C2AE (Canonical-Correlated Autoencoder)方法,採用DNN編碼獲得標籤嵌入式表示,並使其與輸入特徵向量在編碼空間產生關聯,分類loss則仍採用二值交叉熵損失函數,模型如下:

圖 4 精彩看點標籤分類模型技術框架

上圖中,Fx,Fe,Fd是3個DNN,分別代表特徵編碼、標籤嵌入和隱向量解碼,具體地,我們的Loss定義如下

其中相關性分析Loss爲:

標籤分類Loss爲:

相比常規多標籤分類方法,典型相關分析網絡的加入使得我們的精彩看點標籤分類MAP提升了1.1個百分點。

多任務學習模型

考慮到視頻中的精彩度和存在的看點標籤是息息相關的,因而我們可以通過聯合訓練互相促進,從而提升精彩度評分的準確性。我們採用的多任務學習模型如下圖:

圖 5 多任務學習模型技術框架

多任務學習模型包含基於DLDL的精彩度評分和基於C2AE的精彩看點多標籤分類兩個子網絡,在訓練時,我們採用交叉訓練的方式,分別優化評分Loss和標籤Loss。其中共享神經網絡Fs的加入不僅提高了模型分析效率,使網絡減少了近50%的模型參數,且通過特徵共享進一步提高了精彩度評分的準確性,使得均方誤差下降了0.10。

2 視頻精彩度弱監督模型

雖然我們的視頻精彩度監督模型已經具備了良好的精彩度評分能力,但是該模型是建立在昂貴的標註成本之上,模型的可擴展性和更新效率都具有一定的侷限性。目前,一些研究將視頻精彩度分析建模爲一個弱監督任務,取得了較好的效果。愛奇藝擁有海量的用戶數據,我們可以從這些珍貴的用戶行爲數據中,獲得與精彩度相關的弱監督數據。例如,愛奇藝有一個用戶從長視頻中截取片段並進行分享的功能,我們認爲,用戶一般更傾向於截取視頻中更精彩的片段進行分享,即一個視頻切片被用戶截取片段包含的次數越多,該視頻精彩的概率越大,反之,不精彩的概率越大。我們利用這個用戶截取片段的行爲數據,建立了我們的視頻精彩度弱監督數據集,該數據集覆蓋電影、電視劇、綜藝、動漫四大頻道1萬多個長視頻,共包含近300萬個視頻切片。我們的弱監督模型採用ranking loss,如下:

其中視頻切片對 $s_i$,$s_j$,來自同一個長視頻V,分別代表被用戶截取片段包含次數較多的視頻切片和被用戶截取片段包含次數較少的視頻切片,即精彩和非精彩視頻切片 $x_i$,$x_j$ 分別爲 $s_i$,$s_j$ 的特徵,$f$ 代表DNN。

上式假設我們的弱監督數據集不包含噪聲,然而事實上,相比監督數據集,弱監督數據集包含了更多的噪聲,例如在綜藝視頻唱歌、跳舞的精彩表演片段中,極有可能也包含一些觀衆、評委觀賞等一些不精彩的片段。因此,只有一些樣本對是有效的,我們希望模型僅僅學習有效樣本對,而忽略無效樣本對,爲此,我們引入權重變量 $\omega_i$,$\omega_j$,得到損失函數如下:

其中 $\omega_i$,$\omega_j$ 分別表示 $s_i$,$s_j$,屬於精彩樣本的概率,即我們通過 $\omega_i$,$\omega_j$,對樣本的label進行重新標定。

這種通過某種技術手段對樣本label進行重標定的方法在弱監督學習中也比較常用,通常我們可以將樣本特徵映射到新的特徵空間,使得擁有相似表觀的視頻切片之間的特徵距離最近,然後通過K-近鄰的思想,通過樣本k個最近樣本的label對樣本的label重新標定。近年來,圖卷積網絡(Graph Convolutional Networks, GCN)在半監督和弱監督任務中表現出巨大的潛力,取得了較好的效果。在我們的技術解決方案中,也利用了GCN對樣本特徵進行重新編碼,使得相似視頻切片的特徵聚合在一起。整體技術架構如下圖:

圖 6 精彩度弱監督模型技術框架

下面具體介紹我們的技術方案。首先,我們把一個長視頻包含的所有視頻切片作爲一個圖的節點,視頻切片的音視頻特徵作爲節點特徵,圖的鄰接矩陣構造如下:

其中 $S(x_m,x_n)$ 表示 $x_n$,$x_m$ 之間的相似度,$\aleph_k(x_m)$ 代表與 $x_m$ 最相似的k個近鄰。

我們採用一個具有低通性質的圖濾波器進行圖卷積操作,它能夠聚合高階鄰接節點的特徵來表示當前節點的特徵,經過G的作用,相似視頻切片的特徵更加聚合,相對的,不相似視頻切片的特徵更加分散,如下圖所示:

1

原始特徵

2

圖濾波後的節點特徵
圖 7 原節點特徵與圖濾波後的節點特徵示意圖

由上圖可以看出,經過圖濾波卷積作用後的特徵在一定程度上實現了聚類,我們利用圖濾波後的節點特徵 ${\overline X}$,重新構造圖如下:

則節點 $x_i$ 屬於精彩樣本的概率可定義爲,

其中 $y_i\in{0,1}$ 爲節點 $x_j$ 對應的弱標籤。上式可以通過節點 $x_i$ 的k個近鄰節點的弱標籤,得出 $x_i$ 屬於精彩樣本的概率。由置信度不高的樣本組成的樣本對,我們認爲它們是無效的,進而希望Loss可以忽略這些無效樣本對,因此修正Loss如下:

其中,

上式中 $T_P$ 和 $T_N$ 分別是正、負樣本是否可信的概率閾值,可根據數據集的噪聲水平、正負樣本比例等先驗設定。

GCN的引入使得視頻切片得到更好的特徵表示,進而可以根據特徵相似性找到近鄰樣本,從而對自身弱標籤進行重新考量,儘量避免噪聲樣本對Loss的影響,使得我們的精彩度弱監督模型對於標籤噪聲更加魯棒。在模型預測時,只需將測試樣本輸入到圖5中的DNN模塊,即可得到樣本精彩度預測分數。弱監督模型在性能上略差於監督模型,但是大大降低了獲取數據的成本,可擴展性更強。在業務應用中,我們將監督模型和弱監督模型精彩度分數預測結果進行融合,相比單一監督模型,使得優質視頻片段的分類準確率提高了約2個百分點。

3 融合更多維度信息的精彩度

PPC視頻中的精彩度不僅僅與視頻本身的視覺和音頻內容有關,還與很多其他因素有關,例如是否包含明星以及明星的重要程度、受歡迎程度等,這也是PPC與UGC視頻最大的不同。因而,我們在模型精彩度打分的基礎上,還根據視頻片段內的人臉識別信息和人臉時長佔比,得到視頻片段內包含的主要明星信息, 根據主要明星在視頻中的重要程度(可根據是否爲主演、常駐嘉賓等信息計算)和受歡迎程度(可根據明星熱度、明星影響力等信息計算)得到一個明星精彩度得分。

在冷啓動階段,模型精彩度分析對優質內容的篩選尤其重要,但當視頻上線一段時間後,我們也可以根據與該視頻相關的一些用戶行爲對我們的模型精彩度打分進行進一步修正。比如上文提到的用戶截斷片段信息,我們根據被用戶截取片段包含次數的多少,經過一定的數據分析和處理,也可以得到一個精彩度分數;基於用戶在觀看視頻中時產生的快進、快退等拖拽行爲得到的數據,也在一定程度上反映了視頻片段在用戶中的受歡迎程度。

在實際的業務場景中,我們將明星精彩度和用戶截取片段等用戶行爲數據信息與模型分數融合,有助於幫助我們找到模型難以召回的熱點內容,使得視頻的精彩度評分的準確性得到進一步提高。

總結和規劃

我們的視頻精彩度技術方案已在多個業務場景中實現落地和應用,如生成AI廣告產品前情提要、輔助創作,篩選優質視頻進行智能分發、自動生成精彩集錦等,明顯提升了業務產出質量和效率。

在後續的研究中,我們會從特徵提取、算法模型和融合更多維度的信息等方面繼續進行優化,建立更加完備的視頻精彩度分析系統,具體包括以下幾方面:

1)特徵提取: 目前我們的視頻特徵包括視覺和音頻特徵,後續我們將加入文本特徵,也將進一步探索多模態特徵的融合方式。

2)算法模型優化: 我們分別利用標註數據集和弱標籤數據集訓練了監督模型和弱監督模型,然後對兩個模型預測的精彩度分數進行後融合。後續我們打算利用半監督的思想,將標註數據集和弱標籤數據集聯合進行訓練,有望獲得更好的模型性能。

3)融合更多維度的信息 :愛奇藝已經擁有多種標籤識別模型,如行爲識別、物體檢測、場景分類、音頻分類、臺詞分類等,我們可以融合這些模型對視頻片段的分析結果,進一步修正精彩度分數,完善精彩看點標籤。

參考文獻

[1] https://ai.baidu.com/broad/introduction

[2] Gao B B, Xing C, Xie C W, et al. Deep label distribution learning with label ambiguity[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2825-2838.

[3] Yeh C K, Wu W C, Ko W J, et al. Learning deep latent space for multi-label classification[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.

[4] Xiong B, Kalantidis Y, Ghadiyaram D, et al. Less is more: Learning highlight detection from video duration[C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1258-1267.

[5] Zhao K, Chu W S, Martinez A M. Learning facial action units from web images with scalable weakly supervised clustering[C]//Proceedings of the IEEE Conference on computer vision and pattern recognition. 2018: 2090-2099.

[6] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.

[7] Li Q, Wu X M, Liu H, et al. Label efficient semi-supervised learning via graph filtering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 9582-9591.

[8] Zhang X, Liu H, Li Q, et al. Attributed graph clustering via adaptive graph convolution[J]. arXiv preprint arXiv:1906.01210, 2019.

本文轉載自公衆號愛奇藝技術產品團隊(ID:iQIYI-TP)。

原文鏈接

https://mp.weixin.qq.com/s?__biz=MzI0MjczMjM2NA==&mid=2247487444&idx=1&sn=f6e094ee17fa16cd632b179c36a8d963&chksm=e97693f7de011ae19be5b1b6df2f1a15036e9ccd8052c618044f28ea9fe40601fd4462f1ceea&scene=27#wechat_redirect

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章