視頻內容理解在Hulu的應用與實踐

對於一家在線視頻服務公司來講,理解視頻的內容其重要性不言而喻。只有深度理解用戶觀看的內容到底是什麼,才能更好地給用戶提供個性化的內容推薦、更好的交互體驗等產品服務。

Hulu自2016年開始系統性地在視頻內容理解方面展開研究,從視頻切分、人工合成元素抽取、視頻標籤生成、精彩片段分析等等課題入手,通過構建AI系統平臺來支撐視頻數據的生成和處理,在對業務及產品的支持方面也多有探索,從中也積累了一些經驗。

Hulu首席研究主管、視頻內容理解和創新孵化團隊負責人謝曉輝在ArchSummit全球架構師峯會2018北京站上分享了Hulu在視頻內容理解領域所作的探索和應用,以下是他演講的全部內容。

演講主要分爲四個方面。首先會對Hulu上的視頻內容的特點做簡單介紹;同時講一下Hulu爲什麼要去做這件事,以及做這件事所面臨的一系列挑戰是什麼;然後介紹Hulu內部對視頻內容理解的支持和與此相關的技術架構調整;在這個基礎架構的支持下,我們做了很多研究嘗試,今天會給大家詳細分享,在最後還會選擇其中兩個比較典型的例子給大家做介紹。

Hulu是一家全美資的公司。Hulu擁有較多的高質量電影和電視劇,還有電視直播;這種電視直播不是簡單的把電視信號搬到網上,Hulu採取了一種創新的方式來處理電視的直播信號,通過把Live流做拆分,使得電視裏面的許多內容,用戶也可以像VOD一樣去進行點播。

Hulu背後的母公司包括COMCAST、迪斯尼、福克斯,還有時代華納。除了這幾家母公司給Hulu提供強大的內容支持之外,有超過五百多家的內容合作伙伴給Hulu提供精彩視頻內容,與此同時Hulu還有超過一千家的廣告商合作伙伴。有這麼多的內容提供商給我們提供內容,如何控制內容信息的質量,是一個潛在的挑戰。

對於Hulu來說,希望用戶來到這個內容平臺,可以一站式消費高質量的影視劇。Hulu目前支持的Live流超過一百多個,擁有的電影電視劇集超過三百萬。這些視頻的數量是非常豐富的,可能做深度學習的同學們都會非常高興看到我們有如此多的數據。

爲什麼要做視頻內容理解?

在AI的大潮之下,Hulu除了擁有的這麼多的數據之外,還有下面一些做內容理解的原因分享給大家。

image

上面左邊第一幅圖是思科做的一個調查,視頻作爲互聯網上的主導因素,每年還都在以一個非常大的速率增長。其次,圖二是李飛飛在17年CVPR 上對ImageNet競賽的一個總結,在深度學習技術的支持下,對圖片分類和物體檢測方面是有突破性提升的,Top5的分類錯誤率一直在下降。另外一點,我們當時也觀察到,整個業內有很多公司已經把注意力由圖片聚焦到了視頻,尤其是以Google爲領先。在16年的時候, Google發佈的Youtube 8M,微軟的MSR VTT等,同期還有很多大學也發佈了許多視頻數據,例如國內復旦大學的FCVID-LSVC數據集等。

以上是外部的一些因素,從Hulu內部來講,也有非常多實實在在的產品或者業務需求。最爲典型的例子,Hulu作爲一家在線影視服務公司,最核心的一個問題,就是雖然擁有那麼多的視頻資源,如何快速準確的在有限的展示空間下推送給用戶。Hulu的用戶,無論是用手機也好,或者用Web端也好,還是在家裏用電視也好,他所能瀏覽和觀看的展示窗口是非常有限的,這主要是因爲多媒體資源的展示通常都是通過圖文混排的方式,而圖文混排在UI上是非常佔面積的。一個用戶通常在瀏覽大概幾十個這種圖文混排的介紹之後,他就不太願意再往下翻頁了。

因此,一套好的推薦系統對Hulu的重要性是不言而喻的,之前的推薦系統算主要是基於對用戶觀影行爲分析的協同過濾方法,並沒有利用太多用戶所觀看的電視劇裏面的內容信息。雖然算法有時也會考慮利用一些簡單的分類標籤,但實際上這距離準確理解用戶真實的觀影興趣是遠遠不夠的。我們可以回想一下看電影的整個過程,看之前或許會聆聽其他人的推薦意見,但當我們真正看完一部電影,一定是心潮澎湃或是有非常多個人想法的。無論是吐槽也好,感慨也好,你會發現這些感慨和他人推薦給你的理由沒有太多關係,這些感慨更多的是來自於豐富的電影信息和元素對我們的視覺和情感上的衝擊。如果我們可以準確的提煉這些信息,那麼用戶的觀看行爲則可以退居次要的地位。

視頻內容理解技術的挑戰

如上所述,有多方面的理由支持去做視頻內容理解。但這裏面同樣面臨很多挑戰,我列了一下四個方面跟大家解釋。

image

一方面,儘管Hulu現在擁有超過兩千多萬的付費用戶、數百萬的視頻資源,但大多數的數據並沒有標註,對於機器學習以及深度學習來說,沒有標註的數據,很多算法模型基本上是很難設計和優化的。

其次,與國內很多AI公司做視頻分析或視頻理解不同,比如視頻監控,視頻數據都來自於真實的場景。但是對於Hulu來說,除了一部分真實場景的體育或新聞視頻,大量視頻節目發生的場景是虛擬的,例如卡通片、科幻片,包括一些怪物的形象、化妝或者帶面具的人等,整個視頻也是要給大家塑造一種非常新奇或者玄幻的感覺,這些影視劇中場景是虛構的,裏面的元素是新奇的。這對於擅長目標識別和分類的AI算法來講是一大挑戰,這些場景和新奇元素的數據量通常非常稀少且不易標註,導致非常難準確的處理。

第三,關於技術的難與易。如前面提到的,儘管深度學習給計算機視覺領域帶來了翻天覆地的變化,但這種變化很多是發生在圖片級別,當我們把這個問題延伸到視頻領域的時候,發現問題並沒有被很好地解決。例如,檢測這個視頻裏發生了一個什麼樣的事件,講了一個什麼樣的故事,傳遞了什麼樣的情感,這個問題到目前爲止都沒有很好的解決方案,恰恰這些信息對個性化推薦又極爲重要。

第四,作爲一家在線視頻服務公司,每年會花費鉅額資金去購買影視劇。如果它少買一部劇,節省下來的錢,有時甚至可以買一個創業公司了。那麼Hulu有沒有衝動去買技術買數據,放棄自己研發呢?對於這個問題,我們的結論是,Hulu肯定需要在某些數據和技術上實現自研。原因很簡單,因爲AI的很多技術是深度綁定業務邏輯的,這意味着技術架構的升級和更新。單純買技術,意味着公司可能會滯後於技術升級換代,而且很難和Hulu的產品深度融合。

爲了更好的支持視頻內容理解方面的工作,Hulu內部也做了一些技術架構上的調整。有多個開發團隊參與來構建AI的基礎架構。我們在Hulu內部構建了一個AI平臺,大體上可以用三句話來解釋:共享的數據和存儲,共享的特徵和共享的算法模型。

image

另外,視頻的內容理解需要一套自動化的流程,從內容提供商提供的新視頻到達Hulu開始,觸發AI算法生成數據,到數據接入Hulu視頻處理的pipeline,服務於終端用戶。如上圖最左邊,在一個新的視頻到達Hulu做轉碼之前,我們會觸發在AirFlow上運行的一個Job,然後通過Nimbus(Hulu內部的 PaaS服務),觸發AI的算法調用;最右邊的FrameHouse支持把Hulu所有視頻做秒級別的幀拆分和存儲;通過AI算法引擎生成的數據最終會存儲在以內容數據爲中心的數據庫。

Hulu的視頻內容理解工作

在講完內部架構的支持之後,來到今天我分享的重點,我來介紹一下Hulu在視頻內容理解方面的主要工作和嘗試。簡而概之,我們這兩年的研究重點是視頻元數據的生成,其中又可以把它分成三大類:

  • 第一類是視頻的精細化切分。一個高質量的影視劇視頻裏面會包含很多人工編輯的元素或者痕跡,例如,鏡頭拼接的邊界、場景的邊界,片頭、片尾、背景音樂等等,我們首先需要把視頻進行拆分,找到視頻中人工編輯或添加的視頻元素。

  • 第二,在對視頻做了精細化切分之後,會對切分出的視頻片段進行理解和自動標註,並對部分內容做視頻級別的標註。

  • 第三,基於對數據的充分理解和標註,我們在內容生成方面做了部分嘗試,包括生成各種Thumbnails,找到視頻非常精彩的地方,合成視頻摘要,亦或用AI算法生成一些音樂、avatar等內容。

我接下來會詳細講我們在這塊做的一些工作,最後還會再舉兩個例子,具體解釋視頻內容理解和元數據的提取是怎樣提升業務性能,擴展業務能力的。

image

精細化切分

第一件事情是精細化切分。依照人工編輯的元素或者痕跡把一個高質量的影視劇視頻拆開。這些元素或者痕跡包括,電影電視的分級標記,片頭片尾、鏡頭邊界、燒錄的字幕、背景音樂,文字信息等等。有一些元數據內容提供商會跟蹤視頻內容一併發送給Hulu,但這不意味着不需要用算法再次處理,如之前提到的,Hulu擁有超過500家的內容提供商提供內容,元數據的缺失、質量不一致的問題是普遍現象。例如下面的片尾檢測例子:

  • 片尾自動檢測

image

國內有些公司可能是通過人力來標定片頭片尾的數據,但是在美國,人工的成本是非常高的。同時在Hulu的平臺上,單靠內容提供商提供的片尾標記的數據的準確率也是非常低的,5秒的誤差範圍內準確率只有百分之六十多,Hulu需要耗費大量的人力去審覈這些元數據。

因此我們首先想到是否可以用機器來自動檢測片尾的位置。片尾實際上包含多種情況,最簡單的片尾可能只是一個滾動的字幕,背景單一;稍微複雜一點的是由各種各種各樣的Logo組合起來的片尾;還有一種情況則是內容和字幕混排一起出現;比較難處理的情況是內容還在播放,字幕是直接覆蓋在內容的上面。經過仔細討論和分析,我們最終設計了一套基於深度神經網絡的方法,對每一秒級別的視頻幀做檢測,最後多幀融合,最終大家可以看到我們提出的Hybrid Deep CNN算法模型取得的片尾檢測準確率是非常高的。

  • Logo檢測

image

另一個例子是檢測視頻裏面的logo,如上圖所示。Hulu面臨的挑戰是,如何快速的把數百個logo準確的檢測出來。這在Hulu有實際的使用場景,原始的從內容提供商提供的視頻文件通常是沒有channel logo的,Hulu根據獲得授權在不同channel播放時臨時插入對應channel logo。但實際產品環境下,我們發現內容提供商提供的視頻有大約10%已經把logo燒錄進去了,如果此時Hulu再在上面插入logo,給用戶帶來的觀看體驗是非常差的。同時審覈一個視頻是否帶有logo的代價也非常高,logo會出現在視頻的任何一個位置,需要人工從頭到尾把視頻快速地過一遍,才能知道這個視頻裏有沒有已經燒錄進去的logo。

我們在MobileNet上結合SE模塊,並採用反捲積SSD,來檢測logo是否出現以及出現的位置,並通過多幀的結果融合最終給出判決。在這個算法框架之下,我們還增加了一個基於傳統方法的logo預測模塊,用來預警未加標定的新的live channel的logos。當一個算法從來沒有見過的Logo出現時,我們會給內容審覈員發送提醒。

  • 音樂檢測和分類

image

還有一個比較有意思的例子是檢測影視劇中出現的插曲,Hulu的視頻內容質量都比較高,這意味着視頻的插曲通常也非常好聽,很多人在看完視頻之後,會頻繁地回過頭來複聽那首插曲。我們的方法是首先把音頻做秒級別的切分,將音頻片段做頻譜分析,通過CNN對是否是音樂做判斷,最後在時序上找出完整的插曲片段;我們還會對檢測出來的插曲做分類,比如它是爵士樂,還是鄉村音樂;同時我們也會評估電影裏插曲的質量,有一些視頻裏雖然有好聽的音樂,但是因爲演員可能正在大聲說話或者有非常嘈雜的其它聲音,這些音樂會被檢測出來並剔除出去。剛纔播放的兩首音樂,第一首音樂是清唱的聲音,這說明CNN網絡學習到了音樂和歌唱的特點而並非只是學習到了樂器的特有音律。

視頻標籤

講完視頻的精細切分之後,我們做的第二件事情就是對切出來的視頻,從鏡頭或者場景級別給它打標籤做分類。如同之前提到的挑戰,儘管Hulu內部會做一些標註,同時也會利用第三方的公司幫我們標註,但是這個數據量還是遠遠不夠的。因此我們也會藉助一些學術界的公開數據集,通過transfer learning把模型的結果在Hulu的數據集上fine tune,並做進一步的算法加工去做標註。

image

上圖是一個示意圖,每個算法可能運行在不同的數據集上,並可能只能處理某一類標籤,這些標籤結果會將其映射到Hulu自己定義的分類系統上,最終經過算法質量評估、標籤融合和算法融合生成一個最終標籤結果。

image

上圖是一個更細緻的處理流程。首先第0步是公司內部定義了一套Hulu自己的分類標籤系統,這個分類系統可以儘量涵括現在及未來可能的產品、開發以及數據分析團隊的需求。有了標籤系統之後,當我們在某個特定數據集上設計並訓練得到一套還不錯的算法時,比如說基於Places365,我們首先需要把Places365本身的標籤列表映射到Hulu的分類系統上,這樣做的目的是避免不同標籤列表帶來的同義詞、語義相關等問題,並對後期的特徵融合提供支持。

每一個加入到系統中的新算法,都需要一個算法評估模塊,這主要是由於算法遷移到Hulu影視劇的場景下後,算法的整體性能可能會下降,有很多標籤的識別效果變差,我們需要知道算法整體的質量,並衡量和評估其每個標籤的識別質量到底如何,應該以怎樣的方式去融合該算法的識別結果。同時,當系統有多套算法生成結果時,我們還需要去做多算法源、多模態的信息融合。比如來自視覺、音頻和對話(字幕)均分別檢測出有槍、槍聲和槍殺等相關標籤,那麼如果判斷該場景下標籤“槍擊”的置信度。

目前我們這套系統已經解決了鏡頭和場景級別的標籤生成問題,從鏡頭級別提升到場景級別,再提升到視頻級別,我們還需要另外一套標籤和分類系統。通常鏡頭級別的標籤比較偏事實和描述性的標籤;視頻級別則通常是比較偏重於劇情,或者偏重於情感的標籤,這種標籤從底層的事實描述性標籤提升上來,是一個非常難的問題,因爲這裏可能存在語義上的鴻溝。

在開始報告的時候也提到過語義鴻溝的技術挑戰,Hulu目前也有一些早期的研究工作,如何基於視覺的理解生成視頻級別的標籤。這裏給大家看一些初步的結果。經過大量的後處理工作,可以看到,一些documentary類型的節目,還有比如主題明確的一些節目,例如音樂選秀、飲食的、球賽、新聞等等的結果還是非常不錯的。

image

給大家看幾個例子,圖片中藍色的是美國一個比較大的第三方數據公司提供的標籤,它的數據主要是人工標註的,用來做參考。下面綠色的標籤分成兩類,第一種是基於字幕和文字信息,一種是純粹基於視覺的結果。最左邊是一個廚藝比賽的節目,右邊是一個動畫片,下面是一個美國橄欖球賽的結果,看起來質量生成的標籤還說的過去。

內容生成和視頻摘要

在對視頻做完標籤以後,我們第三件重要的工作,就是做內容生成。目前主要集中在如何找到視頻精彩的地方。比如,Hulu上非常多的運動類節目(如籃球、足球、冰球等)爲例,我們怎樣才能快速找到各種精彩瞬間,同時可以在進度條上給用戶提示。在運動類節目上,我們主要的方法主要是通過對回放的檢測,結合比分牌、歡呼聲、特定的動作等等特徵的檢測,找到真正精彩的地方。

image

對於影視劇如何找到精彩的瞬間呢?由於每個人對精彩的定義不盡相同,我們會針對視頻的內容找到多種類型的精彩瞬間,例如故事要點,視頻裏緊張的場景或者動作,主角出現的場景,重要的對白等等。這些片段的抽取也使得我們可以去做個性化的推薦。因爲不同的用戶喜歡看的精彩片段可能不一樣,比如女孩喜歡看一些非常感性的場景,男孩可能更喜歡看一些動作比較多的場景。

內容生成還有一些有意思的應用場景,比如我們有一個研究基於AI算法生成avatar的例子,你昨天晚上看了一部電影,你非常喜歡裏面的一個主角,電影裏他有些非常酷的動作,那麼當你第二天登錄Hulu的時候,你可以看到一個avatar的形象,同時在模擬主角的某個動作,可以給你帶來很多的回味。

內容生成還有一些比較實際的例子,個性化的視頻封面。我們有那麼多內容提供商,每個內容提供商在提供視頻的時候,也會同步提供很多的封面圖供Hulu使用,但這些封面圖通常已經被加上了文字、片名等信息。由於Hulu有自己的UX風格和佈局,整個封面圖會有非常多自定義需求,比如什麼位置最好不能出現人臉,什麼位置可能會放置文字,如何剪裁比例看起來相對協調一些,如何保留圖片的用戶焦點區域等,還需要考慮到在不同的設備下的UX需求,AI算法是這方面的專家,因此我們內部還設計了一套可以自動生成封面圖的方案。

實踐案例

講完前面的三個方面的工作之後,下面我舉兩個實例具體解釋視頻內容理解和元數據的提取可以怎樣提升業務性能,擴展業務能力的。

image

第一個例子是Contextual Ads,如上圖所示,可以理解爲上下文相關的廣告。在Hulu對應着三種具體的使用場景:

  • 第一種場景是指,廣告商可以target其廣告到特定的視頻場景,比如防曬霜廣告可能喜歡陽光沙灘等相關場景。

  • 第二種場景是指,廣告商可以避免target其廣告到某些視頻場景,比如保險公司可能並不希望在視頻裏有車禍場景時推送人身保險的廣告,以避免負面的用戶體驗。

  • 第三種場景是指,在某些視頻內容中避免推送特定的類型的廣告。這主要是部分Hulu的內容提供商在提供內容的同時會附帶一些條件,比如ESPN不允許在它的channel推送任何和運動相關的廣告。再比如Source Park,這是美國的一部成人卡通片,它要求Hulu不能夠在上面插播任何與政治相關的廣告。因此我們不僅需要視頻內容的場景標籤,還需要對廣告視頻進行標籤分析,在滿足多方面要求的情況,尋求更好的廣告branding效果。

image

第二個例子,叫Content embedding,這也是我們公司內部一個比較成功的項目之一。前面提及推薦系統對Hulu的重要性,那麼內容理解如何服務於推薦系統也是我們一直以來認真思考的問題。我們希望把內容相關的信息有效的利用起來,這些信息可以是各種標籤數據,包括演員誰、導演、摘要描述、字幕、以及一些Hulu買入的第三方標籤數據,還有從視頻內容中提取的部分標籤,我們通過Graph embedding的方法把所有元數據揉成一個vector,通過這個vector可以快速判斷視頻內容的相似性,並與推薦算法進行了深度融合。

在視頻理解領域,除了做這些與Hulu業務場景十分相關的應用之外,Hulu也在希望通過公開部分數據和Hulu面臨的挑戰性研究問題,推進在視頻內容理解方面的相關研究工作。我們在2017年的ICIP、2018年的ACM Multimedia上,分別舉辦了基於內容理解的視頻相關性競賽,公司把研究問題、清洗過的數據公開出來,並期望與各個高校的老師、同學們以及我們的同行們大家一起來攻克這些研究難題。

嘉賓介紹

謝曉輝,Hulu首席研究主管,視頻內容理解和創新孵化團隊負責人,具有18+年算法研發創新和管理經驗。專注於模式識別、圖像視頻文本等多媒體信息處理,對人工智能、人機交互領域的研究以及成果落地和產品化有豐富經驗,擁有100+相關專利申請,學術論文近20篇。本科畢業於西安交通大學實驗班,北京郵電大學取得模式識別領域博士學位。曾先後就職於松下電器研發中心、諾基亞北京研究院、聯想研究院。主導研發的手寫計算器曾作爲諾基亞旗艦機N97首發的市場賣點之一,在Lenovo主導研發了Horizon桌面PC的創新手勢交互算法,榮獲CES數項大獎等等。

image

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章