愛奇藝短視頻質量評估模型

短視頻信息流產品是目前最炙手可熱的互聯網產品,完全佔領了用戶的碎片時間,據艾瑞統計2018年短視頻產品月獨立設備數有6億+臺。愛奇藝也有自己的視頻信息流產品矩陣,如愛奇藝熱點、小視頻、愛奇藝PPS、 納逗、薑餅等。每天有大量新的UGC視頻被生產出來,短視頻質量變得參差不齊,批量化的準確識別視頻質量有助於提升用戶體驗,優化推薦算法對於高質量視頻的露出

短視頻/小視頻的主要低質問題可歸納如下:

  1. 封面圖質量:模糊,黑邊,拉伸變形,畫面暗,無主體,無意義等。

  2. 視頻內容質量:視頻無意義,無聊,不清晰,花屏,廣告,低俗等。

  3. 文本質量:標題過於簡單,特殊符號多,句子不通順,語法結構不正常,標題黨,圖文不符等。

基於對以上低質原因的分析,我們構建了綜合視頻文本、圖像、內容、聲音等多種輸入信息的視頻質量模型,主要內容如下:

  1. 封面圖質量模型:基於卷積模型提取的深度特徵和人工設計特徵的圖像質量模型。

  2. 視頻內容質量模型:端到端訓練的基於多模態的深度內容質量模型。

  3. 文本質量模型:基於文本結構特徵和文本語義特徵的文本質量分類模型。

應用場景

視頻質量模型主要的功能是輸出視頻不同模態的質量評估分,如下圖所示:

image

視頻的質量評估信息可以應用在視頻的生命週期多個階段,如uploader上傳提示,corpus進退場和算法側引入質量分boost高質量視頻等場景。

  • Uploader上傳提示:當用戶上傳視頻時,質量模型會給出視頻的多模態質量分,系統根據質量分來決定是否提示用戶上傳質量更改的封面圖,從源頭保證視頻的質量。

  • corpus進退場: 愛奇藝信息流推薦致力於構建健康的用戶生態,大量生產成本低的低質量視頻進入corpus不符合產品的長期目標。利用視頻的多模態質量評估信息可以實時過濾新增的低質量視頻進入corpus, 大幅度降低人工審覈成本。目前該服務已經在熱點推薦上線,目前已識別超過1M+的低質量視頻。從AB測試的結論來看,產品部分指標如留存也是正向的。

  • Boost優質視頻露出:在推薦的召回和排序模型引入視頻質量分,同時優化視頻的後驗和先驗信息,推薦給用戶質量高、轉化好的視頻。目前已經加入到的小視頻業務的召回模型,AB測試顯示增益明顯。

視頻質量模型算法方案

由於視頻標題,封面圖和內容的低質問題在質量定義上差異比較大,三種信息的異構性也比較明顯。 在建模上採用了單獨建模,綜合評估視頻質量的方式。

封面圖質量模型:

人工特徵

image

基礎質量特徵(Low-Level Feature)

  • 邊緣的空間分佈:快照非機構化而雜亂(邊緣分佈均勻),專業相片主題明確邊緣清晰(邊緣聚焦在圖像中心附近),將圖像進行拉普拉斯濾波與其類別拉普拉斯圖像均值的L1距離進行度量。

  • 顏色分佈、色調計數、對比度與亮度:基於圖像的RGB或者HSV顏色空間來統計。

  • 模糊程度:模糊圖像可以看做是清晰圖像,基於各種模糊kernel的作用而得,基於這些覈算法可以評估圖像或圖像像素的銳度或聚焦程度。

我們實現了6組不同模糊覈計算的模糊特徵(14個),以及它們的統計均值,方差,最大值,最小值,同時考慮到圖像的局部模糊性,每個模糊特徵會分圖像的4個區域進行分別統計。我們模糊算子包括:

  1. 基於梯度(Gradient-based operators),該算法假設清晰圖像相比模糊圖像有更銳利的線條;

  2. 基於拉普拉斯變換(Laplacian-based operators),統計圖像中線條的佔比;

  3. 其他包括基於小波算子(Wavelet-based operator);基於統計算子(Statistic-based operators);基於離散餘弦算子(Discrete cosine transform);基於局部表示和濾波相結合(Miscellaneous operators)。

遷移學習 & ImageNet Fine-tuning

基於預訓練的ImageNet模型在訓練數據較少的目標任務上進行遷移學習已經是當前比較流行的做法,且效果明顯。在一些主流的視覺任務如目標檢測、圖像分割、行爲識別上都獲得了state-of-the-art的效果。

在我們的質量分類任務上,由於數據規模有限(萬級別規模),目標任務分類體系和ImageNet的分類體系差異較大,通過實驗對比選擇了保留中間層以上的layers。實際操作上,使用了Resnet50作爲預訓練主網絡,固定的是block3以上的層。

Wide & Deep:深度和人工特徵都很重要

爲了同時收益於ImageNet預訓練網絡的深度表示學習和人工特徵,封面圖質量模型採用的是deep&wide模型結構,同時針對deep和wide側的特徵交叉和訓練優化進行了針對性的改良優化,以下是模型結構:

image

Deep側(泛化): 基於Resnet-50作爲特徵抽取器, 抽取中間層作爲圖像的deep表示,再接上多層隱層來優化目標任務,層與層之間都加入BN。

Wide側(記憶):除了前面介紹的基礎特徵外, 引入了美感特徵和AI特徵。使用Google NIMA深度美感模型的結果作爲特徵,高質量圖片美感上普遍優於低質量圖像。

特徵融合

傳統的Deep側特徵和Wide側特徵作爲兩種獨立且有效的特徵表示,二者之間並沒有交互。而我們知道有效的特徵組合能生產出更有價值的特徵表示,所以我們用精簡雙線性池化( Compact Bilinear Pooling,CBP) 學習深度特徵和基礎特徵的交叉,特徵交叉後作爲Deep側輸入。

image

視頻內容質量模型

視頻內容質量模型是有監督的分類模型,我們在參考當前state-of-the-art的視頻分類模型基礎上,實現了基於視頻抽幀表示,光流表示和音頻表示的多模態視頻質量分類模型。

由於我們的訓練數據規模較小,3D卷積和LSTM分類都不太適合我們的場景。 考慮到NetVlad模型和雙流問題的差異性,在解決問題維度上存在互補,同時我們引入了音頻信息輸入解決音質差的低質量視頻問題。

我們的模型結構如下:

image

視頻抽幀和音頻抽幀的細節如下:

image

NetVlad

NetVlad是圖像位置識別任務中提出的模型,解決了傳統vlad算法基於無監督的聚類過程學習圖像的視覺主題表示,主要改進在於聚類過程變成端到端的有監督學習,聚類中心通過反向傳播進行調整和優化。

我們將其擴展到了視頻質量分類場景,端到端學習視頻抽幀圖像表示的聚類分佈,從而獲得video-level的特徵表示。相對於一般的視頻抽幀特徵的聚合方法如average pooling或最大池化,NetVlad能獲得更好的視頻表示,在比較明顯的視頻畫面低質問題上作用較大, 如黑屏,光線暗,不清晰等。

image

TSN

TSN(Temporal Segment Network)是比較經典的雙流網絡結構,如下圖,主要用於捕捉視頻時序信息。而模型的運動先驗信息我們使用的是光流,光流本質是捕捉同一位置的像素在時序上運動信息。

高質量視頻的光流,軌跡比較有規律,且運動區域清晰。低質量視頻的光流軌跡比較雜亂無章,靜止畫面的視頻甚至沒有運動軌跡。如下,左圖是高質量視頻,右圖是低質量視頻。

image

幀間self-attention:每個segment會隨機抽取K幀,正常是用類似average池化的方法對K幀的CNN表示進行特徵聚合,獲得該視頻片段的特徵表示。我們認爲不同的視頻抽幀對於目標的重要性不同,因此引入了self-attention學習不同幀的重要性權重。

image

Multimodal 多路內容質量模型

NetVlad和TSN分別建模了視頻的視覺表示和運動表示,我們還引入了音頻的特徵表示來識別音質差,沒有聲音等低質量視頻。音頻特徵主要是基於預訓練網絡vggish抽取而得,每個音頻幀可以抽取得到128維的特徵。正如前面的模型圖所示,我們採用的是multi-way的端到端網絡結構,NetVlad,TSN和音頻DNN是模型的三路主模型。

文本質量模型

文本質量模型主要是基於視頻標題、描述等文本信息評估視頻的文本質量,主要重點在於特徵抽取,包括語義抽取和句法結構抽取,模型是xgboost分類模型。

image

總結和規劃

結合業務場景,我們從文本、封面圖和視頻內容分別構建了對應質量模型,已應用信息流業務的不同模塊。但仍然存在一些不足,未來我們會從特徵優化,算法模型優化和自適應業務場景等維度進行:

  1. 特徵提取優化:視頻的圖像特徵、部分內容特徵等的提取成本還比較高,也影響線上效率。目標是實現特徵提取深度化,優先使用深度模型來提取多模態特徵,這樣整個模型訓練過程也更簡潔。

  2. 算法模型優化:目前多模態輸入信息的使用和模型的框架仍比較簡單,未來會考慮學習多模態特徵的共享表示。視頻內容質量模型會嘗試更適合的模型學習潛在的spatial-temporal的pattern。 當前、文本、圖像和視頻的質量模型是隔離訓練的,我們期望能訓練端到端的multi-task模型。

  3. 自適應業務場景:不同業務的數據質量分佈差異比較大,需要構建更通用的質量模型。未來會升級爲積木式質量模型,構建不同低質原因的質量識別子模型,業務根據自身需求選擇合適的子模型進行組合使用。

作者簡介:奇文。本文轉載自公衆號“愛奇藝技術產品團隊”。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章