讓AI“讀懂”短視頻,愛奇藝內容標籤技術解析

前言

隨着短視頻的興起,每天有大量的短視頻被生產並上傳到各大視頻平臺,面對海量的短視頻,如何提升這些短視頻的智能分發效率是各大短視頻平臺面臨的重要課題。

視頻的標籤技術是內容理解的一種重要手段,已經在業界被廣泛應用於推薦系統的各個環節:用戶畫像、召回、排序等。標籤一般分爲“類型標籤”和“內容標籤”兩大類別,類型標籤是對短視頻內容進行層次分類,分類體系是預先定義好的;而內容標籤是根據不同的短視頻內容生成的不同的關鍵詞或短語,用來表徵短視頻的內容,它是一個開放的集合。本文將詳細介紹愛奇藝在短視頻場景中內容標籤技術。

內容標籤技術難點

短視頻一般由短視頻文本標題、封面圖、視頻內容等元素組成,要想較準確的抽取出內容標籤,需要綜合利用這些多模態信息。如何將這些不同模態的信息融合起來應用於模型中並取得較好的結果是需要較多的探索;又因爲內容標籤是一個開放集合,如何判斷哪些詞語可以作爲內容標籤也是比較困難的。在實際人工標註過程中發現,兩個人同時標註同一批數據,標註的完全一致率只有22.1%,以下是一些標註例子:

最後,大量的內容標籤並沒有在文本標題中出現,我們稱這種標籤爲“抽象標籤”,如短視頻標題:“母親染病雪上加霜,女兒自強渴望工作”,其內容標籤爲:“勵志”、“正能量”。根據我們的統計,有40%以上的標籤爲抽象標籤。

內容標籤算法迭代之路

愛奇藝的內容標籤模型的演變經過了文本模型、融合封面圖模型、融合BERT向量模型和進一步融合視頻幀模型四個階段之後,形成了最終的解決方案。下面分別對這四個階段進行介紹:

(一)文本模型

文本模型僅僅使用短視頻標題等文本信息生成標籤。最初使用的是候選生成+排序算法框架,候選標籤主要由以下部分組成:

  • 通過CRF模型提取的候選標籤;
  • 通過聯想得到的候選標籤,聯想規則由人工定義,主要包括:
  • 同義詞、別名聯想。如:kof->拳皇, 魔都->上海, 穎寶->趙麗穎;
  • 實體聯想。如:康熙來了->蔡康永/小s, 露娜->王者榮耀, 章澤天->劉強東;
  • 上位概念的聯想。如:alphago->圍棋, 側翻->車禍/事故, 戚風→甜品。
  • 沒有在文中出現的高頻標籤,通常爲準類型標籤, 如”街頭採訪/觀看反應/勵志”等。

排序模型使用基於注意力機制的語義相似度模型[1] [2] [3],通過注意力機制生成短視頻標題的向量表示,然後和候選標籤向量做語義相似度計算,再通過劃定閾值選取合適的標籤。模型架構如下:

該模型結構簡單,在對文章的建模上有比較好的效果。但在短視頻標題上卻有如下缺點:一是這一模型在抽象類的標籤上的效果不是很好,通過人工定義的聯想規則只能生成一小部分抽象標籤;二是由於標題一般都比較短,注意力模型結構過於簡單,無法進行準確的語義建模。

“候選生成+排序”的結構本質上是一種抽取式的標籤生成方式,即生成的標籤主要是在標題中出現的詞或短語。相比抽取式,通過端到端訓練的生成模型具有比較好的語義抽象能力,其生成出來的標籤不需要出現在原文。2017年Google提出Transformer模型,其強大的特徵提取能力和並行化帶來訓練速度的提升,使其在多項文本生成任務中達到了SOTA的效果,其模型結構如圖所示。

我們最終使用基於Transformer的生成式+抽取式結合的方式來對文本標題進行建模,即先使用生成式來生成標籤,如果沒有結果則使用抽取式的結果。我們對抽取式模型做了如下改進:使用self-attention取代attention機制,增強文本表徵能力;增加候選標籤的上下文特徵和文本的頻道等特徵,模型結構如下:

文本模型通過分析視頻的標題和描述等文本信息,生成內容標籤。但是對於UGC,經常存在文本信息缺失,不充分等情況,比如:

a) 標題爲“分享視頻”,則文本模型會生成空標籤;

b) 標題爲“天地山青,道法無常,李白斗酒詩百篇”,會生成“唐詩”、“李白”這樣的標籤。但是從封面圖看,該視頻其實爲王者榮耀遊戲:

爲了彌補文本模型的缺點,我們引入了封面圖來彌補標題文本的語義信息缺失的問題,所以需要對封面圖進行表徵,並加入到生成模型中。

(二)融合封面圖模型

1、圖像特徵提取

對於圖像的表徵,業界常見的做法是使用預訓練的ImageNet在新的任務新的標註數據上進行Fine-Tune,然後抽取某幾層或最後一層作爲圖像的表徵。我們通過實驗比較ResNet50、Inception V3、Xception等模型的效果,Xception在我們的數據上能達到最優的結果,模型結構如下:

我們使用Xception對封面圖進行特徵提取,具體流程爲:

a) 選取高頻抽象標籤作爲圖像分類標籤;

b) 分類標籤對應的封面圖作爲該圖像的目標標籤並構建圖像分類模型;

c) 使用ImageNet訓練得到的參數作爲模型的預訓練參數,並使用該分類模型進行Fine-tuning;

d) 提取中間層向量作爲封面圖向量的表達。

2、圖像特徵融合

通過實驗發現,如下方式[4]將封面圖向量融合到Transformer模型後效果更好:

a) 圖像特徵添加到Encoder的輸入;

b) 圖像特徵添加到Encoder的輸出;

c) 圖像特徵添加到Decoder的初始輸入。

三種融合方式經過獨立的Feed-Forward Neural Network分別映射到各個空間,模型的結構如下:

(三)融合BERT向量模型

由於多模態模型的文本部分主要採用站內的短視頻標題進行訓練,訓練集偏向於影視劇/娛樂領域,因此這會導致模型對於通用領域的文本語義理解有所欠缺,比如當模型對標題爲“容易被男生吃定的8種類型的女生” 的內容進行分析時, 模型根據站內的數據訓練得出結果爲“女生”,然而更合適的標籤應該爲“戀愛技巧”,因此我們希望預訓練模型可以解決這種問題。爲此我們引入了目前表現最好的預訓練模型 BERT。BERT是基於Transformer的深度雙向語言表徵模型,基本結構如下圖所示,其本質上是利用Transformer結構構造了一個多層雙向的Encoder網絡。

針對不同的任務,BERT模型的輸入可以是單句或者句對。對於每一個輸入的Token,它的表徵由其對應的詞表徵(Token Embedding)、段表徵(Segment Embedding)和位置表徵(Position Embedding)相加產生,如下圖所示:

BERT 是在海量通用文本語料上訓練的語言模型,已被驗證具有非常強的語義歸納能力。我們將BERT sentence embedding集成到現有的模型中,以期增強其對通用領域文本的理解能力, 融合方式爲:

a) 將文本經過BERT模型抽取語義特徵(second-to-last層經過average pooling後的向量);

b) 原始BERT特徵經過非線性映射後,分別加入到模型的encoder輸入、輸出和decoder的初始輸入中。

模型結構如下:

(四)融合視頻幀模型

目前爲止,我們已經使用了視頻的標題,描述等文本和封面圖等信息來生成內容標籤。但是對於一些劇情描述類的劇或者綜藝等,這些信息還不夠充分,比如:

a) 標題爲“此‘八卦’非彼‘八卦’,看完視頻後覺得,腦子是個好東西!”, 通過分析文本和封面圖等信息,會打上“八卦” 標籤,而視頻內容爲“陳翔六點半”;

b) 標題爲“民警曬從警前後對比照,6年前是林志穎,6年後成郭德綱”,通過分析文本和封面圖等信息,會打上“林志穎”、“郭德綱”標籤,而合適的標籤應該爲“民警”。

爲了彌補文本和封面圖信息的不足,我們在多模態模型中引入了視頻幀等信息,引入後模型的總體結構爲:

1、特徵提取

a) 對每個視頻抽取若干個關鍵幀(信息最豐富的視頻幀);

b) 對每個視頻幀通過Xception模型提取特徵,形成視頻幀向量矩陣。

2、特徵融合

Encoder端,將文本特徵、文本BERT特徵、封面圖特徵、視頻幀特徵concatenate,然後經過self-attention進行Early Fusion;將文本特徵、視頻特徵,通過交叉query, key, value, 經過cross-attention進行 Deep Fusion[5],其結構如下圖所示:

Decoder端,使用EnhancedMulti-Head Self-Attention對 early fusion和deep fusion的編碼特徵以及視頻幀特徵進行融合[6],其結構如圖所示:

內容標籤的應用

短視頻內容標籤在愛奇藝得到了廣泛的使用,典型的應用場景爲:短視頻的生產、個性化推薦及視頻搜索方面,具體如下:

在短視頻生產方面,算法生成的高精度內容標籤可以替換人工標註,從而節省人力成本,提高內容標籤生產效率。目前有60%以上的內容標籤的精度達到了90%以上,並且這部分精度高的內容標籤已可以代替人工標註;另外,可以通過分析標籤的消費情況來指導生產,從而優先生產高質量短視頻內容,提升生產流程的利用率。

在個性化推薦方面,內容標籤是細粒度用戶興趣標籤的最重要來源,通過內容標籤也可以做基於內容理解的召回,召回的結果可解釋性更強,也具有一定的泛化能力,在排序環節加入用戶的興趣標籤和短視頻標籤的相似性特徵可以進一步提升推薦的準確度。

在搜索方面,通過計算內容標籤中的抽象標籤和query的相似度可以改善語義相關性的效果,通過用戶行爲構建的query到內容標籤的映射可以用來做query的擴展,內容標籤也可以用來進行長query的去詞、query中心詞識別、query中的term緊密度計算等工作。

思考與展望

短視頻內容標籤技術還有很多優化的空間,未來的優化工作主要從提升標註的質量、融合更多的信息、以及嘗試最新的模型和不同的模型結構等方面展開,希望能夠進一步提升模型的精度以及在最新短視頻上的效果:

1、融合短視頻標題文本中的實體、實體關係等先驗知識到模型中,提升模型泛化能力;

2、融合更多的視頻內容,如增加視頻幀、OCR信息、視頻人物等以及音頻等信息到模型中進一步提升模型的效果。

參考文獻

[1]Zhou, P., Shi, W., Tian, J., Qi, Z., Li, B.:Attention-based bidirectional long short-term memory networks for relationclassification. In ACL,2016

[2]Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, AlexSmola, and Eduard Hovy. Hierarchical attention networks for documentclassification. In NAACL-HLT, 2016.

[3]Das, A., Yenala, H., Chinnakotla, M., Shrivastava, M.:Together we stand: Siamese networks for similar question retrieval. In ACL,2016

[4]Iacer Calixto, Qun Liu, and NickCampbell. 2017b. Incorporating Global Visual Features into Attention-BasedNeural Machine Translation. In Proceedings of the 2017 Conference on EmpiricalMethods in Natural Language Processing.

[5] JiasenLu, DhruvBatra, Devi Parikh, StefanLee. ViLBERT: Pretraining Task-Agnostic VisiolinguisticRepresentations for Vision-and-Language Tasks.Neural Information ProcessingSystems (NeurIPS), 2019

[6] Arslan HS, Fishel M, Anbarjafari G(2018) Doubly attentive transformer machine translation. Computing ResearchRepository arXiv:1807.11605

本文轉載自公衆號愛奇藝技術產品團隊(ID:iQIYI-TP)。

原文鏈接

https://mp.weixin.qq.com/s/sL-jsWUH8TwwHSbnwx_fUA

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章