愛奇藝多模態短視頻內容標籤技術及應用

自然語言處理(Natural Language Processing,NLP)是人工智能的一個重要分支,它研究能實現人與機器之間用自然語言進行有效通信的各種理論和方法,即讓機器“懂”人類的語言。NLP 涉及的面非常廣,包括語音識別 、內容理解、信息檢索、信息抽取、問答系統、機器翻譯、對話系統等。其中短視頻的應用場景下,內容標籤技術是內容理解的一個重要手段。本文主要給大家介紹多模態短視頻內容標籤技術及在愛奇藝的相關應用。

全文共分爲五個部分重點解讀:

一、什麼是內容標籤

二、提取內容標籤的方法

三、多模態短視頻內容標籤的難點

四、模型的迭代之路

五、內容標籤的主要應用場景

 

一、什麼是內容標籤:

提到標籤,推薦系統裏面使用比較廣泛的是內容標籤和類型標籤,其中內容標籤是對文本、圖文或者短視頻等內容的表徵(表徵,就是用一些關鍵詞或者是短語來表達對應的內容是什麼含義)。內容標籤是根據內容來生成的標籤,也就是說有什麼樣的內容它就會有什麼樣的標籤,標籤的集合是開放的。然而類型標籤是一個分類體系,就是把不同的內容分到不同的體系下面,這個分類體系是預先定義好的,這就是內容標籤和類型標籤兩者的區別。

本質上內容標籤和另一個我們經常使用的關鍵詞抽取技術非常類似。但不同的是我們做內容標籤的一個重要出發點是爲了推薦系統來對各種內容生成標籤。它更突出了推薦的應用場景,雖然內容標籤的應用也不僅限於在推薦場景下,可以針對任何基於內容理解的場景內容,因爲內容是一個廣泛的含義,包括文本、圖文、短視頻等等。而關鍵詞抽取,主要針對的是文本,它是從文本里面把跟該文本意義最相關的一些詞語抽取出來,在文獻檢索、自動文摘、文本聚類/分類等方面有着重要的應用。

內容標籤有什麼作用?舉三個典型的應用場景,讓大家對內容標籤有一個比較直觀的印象:

第一,個性化推薦,通過對內容進行標籤提取,結合用戶的興趣TAG,對用戶進行精準的個性化推薦,是內容標籤在個性化推薦上面的一個典型的應用。

第二,搜索,通過內容的關鍵詞或者內容標籤,跟用戶輸入的關鍵詞做精準匹配,返回更精確的搜索結果。

第三,聚類&分類,使用內容標籤作爲文本特徵,來提升聚類或分類的效果。

 

二、提取內容標籤的方法:

 

 

提取內容標籤的方法在這裏我總結了兩大類方法:

第一類是抽取式,本質是從文本中抽取關鍵詞或者短語;

第二類是生成式,通過生成的方式,來生成關鍵詞和短語。

這是兩條不同的技術路線。

先看抽取式,抽取式主流的方法第一步是做侯選詞的提取,第二步對侯選詞做排序,然後把得分高的選出來作爲關鍵詞。又可以分爲有監督和無監督的方法,當然也可以把監督和無監督相結合起來:

其中有監督的方法:是先提取侯選詞,提取的方法可以結合一些無監督的方法。比如說通過詞頻序列標註提取一些侯選的關鍵詞。然後做一個分類或者排序,來選出得分高的候選詞作爲關鍵詞。

第二個是無監督的方法,無監督方法使用比較廣泛的是基於詞頻的方法和基於圖的方法。基於詞頻最常用的方法是TF-DF,它是最簡單也是使用比較廣泛的一種關鍵詞提取方法;基於圖的方法最常用的是TextRank方法,它是從PageRank算法發展而來,它的思想是以文本中的詞爲節點,以詞的相鄰關係爲邊構建詞圖,然後使用PageRank算法進行迭代來計算每個節點的rank值,選取rank值較高的詞作爲關鍵詞。TextRank後續發展的模型有:ExpandRank、CiteTextRank、PositionRank等。

抽取式另外一個思路是聯合學習。因爲兩步走的方法有一個缺點,就是錯誤會積累。比如說侯選標籤沒有提取出來,或者提取錯了,那麼第二步排序怎麼做都做不好。所以有一些研究者把這兩個流程結合起來通過聯合學習來做標籤提取。它的好處是可以避免錯誤積累,當然學習的難度也會加大。

但抽取式有一個缺點,就是隻能抽取在文本中出現的關鍵詞。但是很多的關鍵詞它在文本中並沒有出現,特別是具有歸納或者是概括特性的關鍵詞。抽取式在這個時候就無能爲力了。

第二類的方法是最近研究方面比較熱的生成式。生成式有兩個思路,第一個思路是通過seq2seq技術框架來生成標籤,就是把文本作爲輸入,把標籤作爲輸出去做一個端到端的生成。因爲不要求生成的籤一定在原始文本中,所以說它可以比較好的解決沒有在文本中出現的標籤的問題。

另外一種思路是使用強化學習來生成標籤,比較有代表性的是ACL2019的一篇文章,它是爲了解決內容標籤召回的問題,目的是爲了提高召回,在使用強化學習的時候,當召回低於Ground-Truth時,使用Recall作爲Reward,召回高於Ground-Truth時,使用F1 score作爲Reward,這樣可以對召回和精度做一個平衡。訓練框架使用的是基於self-critical的策略梯度方法。

 

三、多模態短視頻內容標籤的難點

接下來介紹一下在短視頻場景下這種內容形式上的內容標籤抽取方法。短視頻目前已經成爲了一種主流的媒介形態,如何提升短視頻的分發效率,是各大短視頻平臺面臨的重要課題。內容標籤作爲短視頻內容理解的重要手段,在愛奇藝得到了廣泛的應用。

先看一下短視頻內容標籤有什麼樣的難點:

第一,內容標籤集合是一個開放集合,根據我們的統計它的數量有好幾百萬,所以不能使用分配的方法(如分類),來生成標籤。

第二,短視頻內容標籤的標準很難統一,我們曾經做過統計,兩個人給同一批短視頻標註內容標籤,標註完全一致率只有22.1%。所以對於一個短視頻哪些詞可以作爲內容標籤,並沒有統一的標準。

第三,抽象標籤佔比較高,抽象標籤學術上叫absence標籤。就是這個標籤它沒有在標題中出現,經過統計在短視頻中抽象標籤佔比高於40%。同時,標題因爲長度也比較短,特別是短視頻標題,很多情況下它並不是一個完全的句子,而是一些關鍵詞的拼接,在信息比較少又不規範的情況下,語義理解起來也就更加困難。

第四,融合多模態,包括封面圖和視頻內容,比如,在一個短視頻的標題爲“男子開車堵在女子家門口,女子不費吹灰之力,連人帶車一塊弄走”,看不出這個視頻是什麼含義,但這個視頻內容描述的是關於明星張歆藝的相關的內容,所以這類內容需要結合多模態的信息才能準確抽取出準確的內容標籤。

四、模型的迭代之路

 

 

(一)、文本模型:

首先我們來看看文本模型,從詞權重+閾值——CRF模型——注意力模型——Transformer模型,文本模型經過了一系列的算法迭代,具體如下:

·  詞權重+閾值:這個是最初始的版本,詞權重結合闕值來抽取標籤。但是首先閾值很難劃定,因不同的詞在不同的句子中它的得分是不一樣的,雖然它能把一些重要的詞抽取出來,但是總體的精度和召回都比較低。同時,內容標籤有時候可能是抽象標籤,也可能是一個短語,或者是多個詞,用這種方法是解決不了的。

·  CRF模型:CRF在序列標註任務中是一個經典的模型,但是它有個特點,第一它只能抽取標題中出現的詞或短語,同時需要人工來設定特徵模板,還有一個問題就是它主要使用當前詞的周圍詞的特徵,如果這個詞的特徵詞距離比較遠的話,效果就比較差。

·  注意力模型:也是抽取式的模型,通過人工定義一些抽象標籤作爲候選標籤,然後使用注意力模型來進行排序,所以它可以抽取出一部分抽象標籤。同時能比較好的使用全局的特徵。

·  Transformer模型:典型的生成式的模型,它是有比較好的語義概括的歸納能力,在抽象標籤的效果也不錯。

 

 

 

Transformer把抽取任務轉化成生成任務,同時具有語義概括的能力,並且也可以對一些別名進行歸一化。總體來說,它的效果要比抽取式好很多。

文本模型因爲僅僅使用文本內容,會造成信息的缺失。比如,從標題裏面並不能任何有價值的信息,但是從封面圖可以看出具體短視頻內容。所以如果僅僅使用文本標題,模型效果會有很大的瓶頸,我們使用封面圖來解決文本信息語義缺失的問題。

 

(二)、文本+封面圖模型:

 

 

要想把封面圖加入模型,首先面臨的第一個問題就是怎麼把封面圖向量化, 其中會用到遷移學習,遷移學習目前在業界是應用比較廣泛的一種技術,它使用大規模數據預訓練好的模型在新的任務新的數據上進行Fine-Tuning,從而加快模型學習效率,使模型能較快的達到一個比較好的效果。我們的做法是使用ImageNet預訓練好的模型,在我們的數據集上用這個模型去初始化一個圖像分類的任務,分類的標籤是圖像對應標題的高頻抽象標籤。預訓練模型我們比較了ResNet、Inceptionv3、Xception等模型,最終我們使用Xception來初始化我們的圖像分類模型,然後抽取出倒數第2層2048維向量作爲圖像的表徵。

 

 

 

圖象和模型融合的方式有三種:第一種方式是把圖象向量作爲一個token拼接到文本輸入裏面,一般的做法是拼接到文本向量的首尾。第二種融合的方式是設置圖象向量作爲Encoder隱藏層初始化向量,因爲隱藏層的參數初始化有兩種方式,第一種方式是初始化爲0;,第二種是隨機初始化,這兒使用圖像向量作爲隱藏層的初始化向量。第三種方式是將圖像向量和Encoder輸出向量融合,然後作爲Decoder的初始向量。

我們圖像融合方式是這樣:把封面圖通過Xception之後生成的圖象向量,同時在三個地方去做做融合:Encoder輸入端的首尾、Encoder輸出端的首尾以及作爲Decoder的初始向量。

增加封面圖信息後,可以解決一部分因爲標題導致的信息缺失的問題,模型效果也有了一個較大的提升。但是因爲短視頻標題是短文本,有時候是一些關鍵詞的拼接,並且訓練數據偏娛樂,那麼對於一些通用領域的短視頻標題,語義理解就比較困難,所以僅僅使用Transformer模型有時候並不能準確的生成內容標籤。下面舉一個例子,這個標題是:容易被男生喫定的8種類型的女生,現在通過Transformer模型只能提取出它內容標籤是女生,但是其實它的內容標籤應該是戀愛技巧,就是需要模型對標題做了一個語義的歸納和概括,生成更抽象的表達。

針對這種問題,我們想到的一個解決方法就是在模型中加入Bert向量。Bert是使用大規模數據上訓練出來的預訓練模型,它的語義理解能力較強,目前在NLP多個領域的效果達到了SOTA的效果。

那麼如何將Bert向量融合到模型中?我們參考了融合封面圖向量的方式,首先把標題文本經過Bert提取出標題的語義特徵,也就是把標題文本字符串轉化成了一個向量,一般是提取Bert的倒數第二層的向量作爲文本表示向量,如果提取最後一次,因爲離目標太近,可能在新的任務上有偏差。

把文本向量提取出來之後,通過三種方式來加入到這個模型。第一種方式是跟封面圖做拼接之後,加入到Encoder輸入,第二種方式是加到Encoder輸出,第三種方式是加到Decoder的初始化向量,通過這三種方式把Bert加入到模型中,文本的語義理解能力有了一些增強,很多需要高度概括的一些內容標籤也可以生成出來。

 

(三)、多模態融合方式

 

 

文本加封面圖模型還是會造成語義信息丟失的問題。比如說剛纔舉的例子,也就是說只有看了視頻之後才能知道這個視頻是什麼內容。所以視頻內容本身就有非常豐富的語義信息。怎麼把這個視頻的內容加入到模型,是我們接下來考慮的問題。

首先我們抽取短視頻的關鍵幀,什麼叫關鍵幀?也即信息比較豐富的視頻幀,因爲有些幀沒有什麼信息的,所以加進來效果也不一定好。抽出來之後第二步把每一個關鍵幀,通過Xception轉化成視頻幀向量,分別把視頻幀向量、封面圖向量和文本向量,包括文本的Bert向量做一個多模態的融合,通過生成模型來生成標籤,這是總體的一個框架。

 

 

 

那麼接下來的一個問題就是,不同模態怎麼去融合,主要有三種方式:

第一種方式是在數據級別或者是輸入的層面做一個融合,這個方式早期的一種多模態融合方式,這種方式非常簡單,很容易實現,缺點是不同模態的特徵抽取方式不一樣,直接拼接可能會破壞預訓練模型的輸入一致性。

第二種方式是在最後做融合,即各個模態單獨做特徵提取和單獨做決策,生成每個模態決策的結果,最後做融合。常見的融合方式是把不同模態的預測分數做平均、加權平均、取最大值等。

第三種方式是在模型的不同層面對多模態進行融合,這也是現在比較常見的一種方法。

 

 

 

這兒給大家介紹一下NIPS2019年的一篇文章,它是通過把視覺和語言的特徵在模型層面作了一個深入的交互,來做一個融合,這是一種典型的HrbridFusion方法。

在我們的模型中也是用了類似的多模態融合方式。在Encoder端使用Early Fusion對文本向量、文本Bert向量、封面圖向量、視頻幀向量做融合;使用Hrbrid Fusion的方式融合文本向量和視頻幀向量。

然後在Decoder端,使用Enhanced Scaled Dot-ProductionAttention的方式做對多模態內容做進一步融合。加入視頻理解的信息之後,模型效果有了明顯的提升,可以把視頻裏面的內容可以很好的提取出來。

 

五、內容標籤的應用:

最後給大家介紹一下內容標籤在愛奇藝的一些應用:

1)個性化推薦,首先是理解用戶,也就是用戶打一些興趣標籤,興趣標籤是多個維度,其中內容標籤是細粒度興趣標籤中最重要的一種標籤;然後是理解內容,生成短視頻的內容標籤,根據內容標籤做召回和排序。

2)搜索,內容標籤在搜索方面也是有較多的應用:

首先是搜索相關性,特別是短視頻的抽象標籤對提升搜索相關性有較大幫助,因爲短視頻標籤在文本標題中沒有出現,所以通過Query並不能召回這些短視頻。所以通過Query和抽象標籤的匹配可以擴大短視頻搜索的召回,從而提升搜索的相關性。

第二是做Query擴展,通過Query和點擊過的短視頻的內容標籤做一個影射,然後訓練一個端到端的生成模型,來生成輸入Query的擴展Query。

第三是Term的緊密度,如果Query中的Term之間緊密度得分比較高,那麼它們在一起出現的可能性就大,這個signal有助於提升搜索相關性的效果。判斷緊密度的方法之一就是如果不同的Term出現在同一內容標籤中,那麼它們的緊密度就高。

第四是在Query推薦,通過生成Query的內容標籤,和用戶的興趣標籤做匹配,用來做Query推薦中的召回和排序。

 

同時在其他方面也有很多應用,這裏舉三個例子,第一個是長短關聯,就是當你看到的短視頻如果是長視頻的一個片段,可以使用自動的方法把該短視頻關聯到對應長視頻上面,這樣既能通過短視頻給長視頻導流,也能滿足用戶觀看需求,提升用戶體驗。這其中會用到內容標籤技術,通過內容標籤可以擴大長短關聯的召回。

第二個應用是IP的關聯,就是當前這個短視頻它對應的IP是什麼,可能對應的是遊戲,可能是對應的是商城的一個商品,可能對應的是一個文學等等,其中也會使用到內容標籤中的實體標籤進行關聯。

第三個是一個事件聚合,通過內容標籤是可以擴大事件聚合的召回,來提升事件聚合的效果。

短視頻內容標籤技術還有很多優化的空間,未來主要從提升標註的質量、融合更多的信息如音視頻信息等等,能夠進一步提升模型的精度以及在短視頻上的效果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章