內容理解做不好，談什麼個性化推薦

網易新聞通過對用戶興趣和內容進行建模，幫助用戶從海量信息中找到感興趣的內容。其中，通過算法進行內容理解是建模的基礎，也是推薦系統的基石。今年10月，網易傳媒資深算法工程師張亞中將在QCon全球軟件開發大會（上海站）2019分享多媒體內容理解技術在網易新聞中的實踐，近日，我們對他進行了採訪。

後移動互聯網時代資訊爆炸，用戶每天都在被迫接收着海量信息。如何幫助用戶找到最合口味的好內容，實現千人千面精準推薦，通過精細化運營搶奪用戶時長，是互聯網公司當下最重要的命題之一。

目前，個性化推薦系統已成爲內容產品的“標配”，它通過對用戶興趣和內容進行建模、預測，最終實現用戶與內容的精準匹配。其中，通過算法進行內容理解是建模的基礎，也是推薦系統的基石。

近日，我們採訪了網易傳媒資深算法工程師張亞中，帶你瞭解多媒體內容理解技術在網易新聞中的應用。以下爲採訪實錄：

張亞中：各位好，我目前任職於網易傳媒推薦產品中心，部門職責是爲網易新聞客戶端提供個性化推薦服務，而我的工作是對新聞數據進行特徵提取來支撐推薦系統和用戶建模，研究內容包括CV和NLP兩方面。在此之前，我曾在華爲公司2012實驗室工作，參與某天線系統的智能檢測項目，負責機器學習算法開發。博士畢業於西安電子科技大學人工智能學院，在校期間的主要研究方向是視覺感知建模和圖像質量評價，涉及圖像處理、人類視覺系統建模和機器學習等相關知識。剛加入網易時，主要從事CV方面的工作，由於圖文也是新聞數據的主體部分，因此同時參與NLP相關的業務。深度學習End-to-End的做法降低了各應用領域的門檻，比如CV和NLP很多基礎技術都是相通的，像Attention機制、CNN、LSTM等，只是處理對象不同而已，我後來的工作圍繞CV和NLP同時展開。

內容理解技術在網易新聞的應用

網易新聞客戶端是一個基於個性化推薦算法的綜合內容平臺，涵蓋了圖文、圖集、短視頻、小視頻、短文本、問答、直播、專題等類型的內容形態，所有這些內容都可以歸結爲文本、圖像和視頻三種數據形式。具體來講，對於文本內容而言，我們有偏資訊的長文本，也有偏社交性質的短文本，比如“圈子”和“講講”欄目，也有問答形式的“知否問答”。對於圖片內容，有封面圖和圖文中的插圖，還有專門的圖集。對於視頻內容，有常規的影視劇片段、新聞報道，也接入了網易公開課的優質資源。

在個性化推薦系統裏面，內容理解是很重要的一環。針對各種形態的媒體數據，我們都從文本、圖像和視頻三個大的方面進行內容分析。學術界和工業界對文本和圖像的研究起步比較早，積累了很多有效的方法，我們在處理文本和圖像內容時，主要也是使用目前業界流行的NLP算法和CV算法，再結合具體的業務適當改造進行落地。視頻類內容出現和流行的時間相對較晚，目前普遍還處於探索階段。我們的主要做法是將它分解爲文本和圖像的問題來處理，轉變成我們熟悉的問題。比如，視頻的標題、簡介和字幕就是文本內容的理解，對視頻進行關鍵幀抽取，每幀圖像就可以運用圖像理解的算法，另外還會用到一些音頻的算法和特徵。我們的總體思路就是將陌生、複雜的問題轉化爲熟悉的問題來解決。

基於NLP的文本內容分析難點

NLP 主要用於文本內容分析，目前還存在不少難點。我認爲文本摘要、隱晦的低俗內容識別、同義詞、長文本向量化、語義歧義等等都是一些比較難解決的問題。以語義歧義爲例，我們在實際業務中經常會遇到兩類歧義問題。第一種是文本本身存在歧義，不同的分詞方法可能會得到截然不同的意思，舉個經典的例子，“南京市/長江大橋”和“南京/市長/江大橋”，從語法上來說兩種分詞都沒錯，但是意思完全不一樣。另一種歧義是上下文理解造成的歧義，“蘋果實在太難用了，我下次打算換小米”，聯繫上下文我們知道這裏的蘋果和小米都是指手機品牌而不是食物。

關於消岐的方法，最簡單的是基於詞典的消岐，詞的每個含義都定義其對應的主題（如“小米”對應主題“數碼”），多義詞可以對應多個主題。在做內容理解時，根據上下文的主題選擇合適的含義。其次是有監督消岐，人工標註一批有歧義的數據，讓機器學習這些詞的具體含義。另外還有無監督消岐方法，相比有監督方法效果可能略差。

網易新聞多媒體內容處理中的CV技術

CV與NLP都是人工智能的一個分支學科，得益於大數據、強算力和深度學習新技術，CV和NLP在最近幾年都取得了較大的進展。就CV而言，我針對研究對象分別從圖像、視頻和三維視覺三個方面來講具體的研究領域。

圖像方面，根據關注區域爲圖像全局、局部或是像素級，大致可概括爲圖像分類、目標檢測、目標識別、語義分割四大應用。其中，我們平時熟知的人臉識別、OCR算法、場景識別都可以抽象爲目標識別範疇，而人臉檢測、行人檢測、車牌檢測可抽象爲目標檢測。
視頻方面，有視頻分類、動作識別、時序動作定位、視頻片段截取等視頻理解方向的技術，也有目標跟蹤等算法。同時，CV與NLP相結合，發展出看圖說話、視頻問答、視頻摘要等應用。
三維視覺涉及三維重建、視覺定位、SLAM等技術，主要應用於機器人、無人駕駛、三維測繪等領域，這部分我瞭解不多。

在網易新聞的多媒體數據處理中，我們大量地用到了上面所列舉的CV技術，比如我們通過圖像分類技術進行三俗、低質等圖片的鑑別，通過人臉識別技術對圖片或視頻中的人物進行識別，採用OCR算法對視頻中的字幕進行提取，還有基於DNN網絡對視頻進行特徵提取然後進行主題聚類，也嘗試通過看圖說話技術對圖像進行語義標籤生成等。

內容理解是一個比較抽象的概念，主要思想是將非結構化的內容(比如圖像、文本等)進行結構化的表示。在網易新聞的場景下，內容理解主要是通過算法提取各種各樣的顯式和隱式標籤。我剛纔已經講過，我們目前已經用到的CV技術包括人臉識別、目標檢測、OCR等。但是，我們在實踐中發現，目前的CV技術對具有明確實體目標的任務處理的比較好，比如識別出圖片中有什麼東西，但是對於概念型的語義標籤，CV還沒有發揮出強大的作用。我個人分析原因，一方面是缺乏大量的訓練樣本，由於語義標籤帶有很大的主觀意識，評價標準有時不能統一，因此很難保證訓練樣本的高質量，另一方面也是算法本身的侷限，概念型的標籤往往需要考慮到圖像全局的信息，而CNN網絡的卷積核只關注到了局部區域，這種機制不適合於用來提取抽象的標籤。針對這個問題，我們目前正在探索利用多模態技術，充分利用文本、音頻、視覺內容，通過信息融合來彌補視覺維度的不足。

多模態技術未來會成爲內容理解的一個重要趨勢和標配

在視頻理解、搜索、內容推薦等領域，多模態機器學習應用十分廣泛，那麼對於視頻理解和內容推薦領域，多模態機器學習的關注重點是什麼呢？

有學者認爲多模態信息的智能化理解是通向人類智能的重要方向和趨勢，大家都給予了很大的期待，但是目前階段多模態學習的研究還很不成熟，應用場景也非常單一。要分析多模態技術能在視頻理解問題上起到什麼作用，首先要明確一下多模態機器學習有哪些研究內容，目前學術界普遍將其分爲：多模態表示學習、模態映射、多模態融合、對齊、協同學習，每個方向都有特定的適用範圍。

在推薦場景下，我們做視頻理解的目的是爲了挖掘內容中能體現出用戶興趣點的特徵，比如類別或者屬性標籤。爲了利用多模態信息達到這個目的，首先可以想到的是將文本、視頻、音頻三個模態的信息進行融合，學習分類器，這裏會涉及到多種特徵融合方式。此外，多模態表示學習將不同模態的數據投影到同一個特徵空間，可以嘗試將圖像或視頻和屬性標籤投影到一個空間，在滿足一定約束的條件下建立關聯關係，這樣類似於詞向量的方式，在同一個特徵空間中通過距離來衡量不同模態數據之間的語義相關度。模態映射是將一個模態的信息映射到一個另一個模態上，機器翻譯中的Seq2Seq模型和看圖說話就屬於這個範疇，也可以嘗試將圖像直接映射到屬性標籤上。對於多模態對齊和協同學習，業界在視覺理解上的相關工作還不多。

下面主要講一下多模態信息融合。

實現結果更準確、性能更優的預測是業界一直以來的追求，如今我們已經不再依靠單一模態數據，而是對多個類型的媒體內容提取特徵向量，然後進行多模態信息融合，建立預測模型，多模態特徵融合按照融合發生的階段是離原始信息近還是離多模態特徵近可以分爲早期融合（Early Fusion），晚期融合（Late Fusion）和混合式融合（Hybrid Fusion）。

三種特徵融合方式的區別主要體現在融合發生的階段，Early、Late或者Hybrid的界定是通過判斷融合發生時是否已經進入深度網絡結構。

Early Fusion是對多個模態的原始數據進行融合，將不同來源的原始數據(或者是簡單的手工提取特徵)進行拼接，然後再級聯深度網絡結構，最後接上分類器或其他模型。Early Fusion是學者對多模態融合的早期嘗試，通過將各模態的底層特徵進行融合學習相關性，由於只需要訓練一個共同的模型，複雜度可控。但是，由於多個模態的數據來源不一致，會給拼接造成很大的難度，並且直接對原始數據進行拼接會引起較大的特徵維度，對數據預處理也非常敏感。
Late Fusion是針對單個模態分別進行決策，然後將預測後各模態的分數進行融合，通過取平均值、最大值或接一個簡單的分類器來完成，可以理解爲集成方法Ensemble Methods的一種。Late Fusion方式的各模態單獨處理，特徵獨立互不影響，即使某個模態信息丟失也可以正常訓練，具有很強的靈活性。但是，該方式沒有充分利用模態間底層特徵的相關性，並且由於涉及多個模態的分別訓練，也會帶來較大的計算複雜度。
Hybrid Fusion 一般也叫Intermediate Fusion，是一種逐級融合方式，在不同層級上依次對不同模態進行融合，綜合了上述兩種方式的優點，既利用了模態間信息的相關性，也具有一定的靈活性，目前大部分多模態融合都是採用這種方法。

我們在早期處理圖文和視頻內容時，採用了Late Fusion的方式，即分別通過文本和視覺信息提取對應的標籤，最後將結果綜合起來。但是，如果某個模態做的不好，做決策時也很容易影響到最終的結果，目前正在探索基於Intermediate Fusion的方式，結合文本、音頻和視頻內容，一方面能充分利用各維度的信息，另一方面也能聯合起來訓練分類器，通過End-to-End的方式將最終誤差降低到最小。

多模態技術未來會成爲內容理解的一個重要趨勢和標配，我們將繼續探索如何進行更好地落地。目前我們在處理視頻信息時，還會部分依賴編輯人工打的標籤信息，後期我們想完全依靠算法，基於視頻的標題、簡介、音頻和視頻直接得到視頻分類等標籤信息。另外，我們也將考慮通過多模態表示學習，將文本和圖像/視頻及用戶投影到同一個特徵空間，提高用戶的檢索匹配率。此外，我們除了應用多模態技術進行常規的內容理解任務外，還打算嘗試基於協同學習，在直播、跟帖等產品上衍生出更多好玩有趣的應用。

####採訪嘉賓

張亞中，網易傳媒資深算法工程師，現就職於網易傳媒集團推薦產品中心，從事新聞數據的內容理解工作，曾任職於華爲2012 實驗室。張亞中畢業於西安電子科技大學人工智能學院，獲得博士學位，研究方向爲視覺感知建模和圖像質量評價等，在 Neurocomputing、IEEE TIP、IEEE ISCAS等國際期刊和會議發表多篇論文。個人對深度學習、多模態學習（特別是文本和視覺）有濃厚的興趣。

在QCon上海2019的分享中，他將介紹在新聞推薦場景下利用 NLP、CV 及多模態技術對資訊數據進行語義分析的經驗和實踐，點擊瞭解詳情。

內容理解做不好，談什麼個性化推薦

內容理解技術在網易新聞的應用

基於NLP的文本內容分析難點

網易新聞多媒體內容處理中的CV技術

多模態技術未來會成爲內容理解的一個重要趨勢和標配

win11關閉自動檢測病毒刪文件

快手於冰：咱客戶端工程師，還可以往哪個方向縱深？

說說雲原生落地面臨的難點與坑點

內容理解做不好，談什麼個性化推薦

選Scala還是Go，一個很現實的問題

前端微服務在字節跳動的落地之路

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結