機器學習創建個性化、快餐式媒體內容

摘要:

付費電視服務在與運營商之外的第三方通過互聯網提供(Over-The-Top,OTT)的視頻點播(Video-on-Demand,VoD)服務的競爭中逐漸處於劣勢,儘管電視服務運營商擁有海量的媒體內容,但是後者利用短視頻和刷劇(binge-watching)的功能可以更好地迎合如今觀衆的需求。爲了解決這個問題,一些電視服務運營商通過人工將線性的視頻內容剪成視頻點播的形式向用戶提供簡短的內容,但這通常不可行也不可擴展。而且研究表明,用戶盡力去發現的新內容總是令人失望的。近些年來,機器學習算法尤其是深度學習因其在目標識別和語音識別任務中可以匹敵甚至超過專業人士的表現得到了極大的普及。

本文主要根據Evangelos Stromatias等人IBC2018文章 “ Using Machine Learning To Create Personalised Snackable Content” 來介紹荷蘭Media Distillery機構搭建的一個平臺,其利用最先進的機器學習算法來實時分析電視和視頻點播中數千小時的多語種多媒體內容,進而獲取豐富的元數據,然後根據用戶的喜好來推送個性化的快餐式內容。

引言

在過去十年裏,消費者的觀影習慣發生了翻天覆地的變化。電視運營商和廣播公司儘管能夠生產大量的原創內容,但在市場競爭中正逐漸讓位於互聯網視頻點播服務的第三方供應商,尤其是後者能夠提供短視頻和刷劇(binge-watching)的服務。而且數據表明年輕一代花費了一半的時間消費視頻點播內容,從2010年到2017年增長超過100%。爲了與OTT VoD 服務供應商競爭,電視服務運營商嘗試人工將視頻內容剪成短片推薦給用戶,但這是個昂貴又耗時的過程。

很有趣的是,儘管電視服務運營商和OTT VoD服務運營商有許多差異,但他們都面臨着相同的問題:觀衆發現內容的搜索仍舊面臨着巨大的挑戰。最近的報告顯示觀衆在內容搜索上每天平均要花費一小時,而且花費的時間預計會隨着我們可以不斷獲取越來越多的視頻內容而不斷增加。大約70%的觀衆更喜歡點播和刷劇(binge-watching)的服務而不是線性的電視內容。同時,研究表明提供搜索服務和推薦功能會提高觀衆的參與度。這些調查研究說明內容的分割和推薦必須以自動化的方式來運行以保證能夠應對可以獲取的大量視頻內容並滿足消費者的需求。

深度學習在人工智能領域作爲機器學習的一個分支,已經可以成功的用來解決以前認爲只能由專業人士來完成的認知任務,因此在過去十年裏獲得了極大的推廣。荷蘭Media Distillery建立的多媒體內容分析平臺,利用機器學習算法實時分析數千小時的視頻和音頻內容。作者使用了一部分算法來完成將語音轉化爲文字,識別人臉,鑑別目標種類,檢測文本和商標的工作,通過這些算法可以在視頻和音頻內容中理解和搜索相關信息並生成豐富的元數據。

在文章中,作者描述了在元數據提取方面的發展以及研究新的基於詳細視頻理解的媒體應用,例如相關內容搜索,內容爲主的推薦系統和快餐式內容。此外,作者詳細介紹了三個利用所述平臺的使用案例。

相關工作

科技巨頭例如Google、Amazon、IBM和Microsoft 擁有他們自己的雲平臺來提供隨時可以調用的機器學習方法,例如:人臉識別、語音識別和機器翻譯。但是這些現成的機器學習方法有幾個缺點使得它們無法適用於特定的任務,包括內容理解。其中幾個缺點包括:(a)通信開銷;(b)費用昂貴;(c)無法處理一些特定形式(如:隔行掃描)的數據;(d)很難根據用戶需求定製。由於這些問題,許多公司針對個性化內容推薦系統發展自己內部的解決方案。

YouTube 在2009年介紹了他們針對自動視頻描述(video captioning)推出的自動語音識別(ASR)系統。這些自動生成的字幕使得YouTube能夠在視頻中搜索並向用戶推薦特定片段,這種片段被稱爲“snippets“。YouTube現在的個性化推薦引擎由一系列機器學習算法組成,數據顯示用戶在YouTube上觀看視頻時間的70%是由於他們的個性化推薦引擎的關係。

Spotify 在爲用戶推薦音樂內容上使用多種機器學習算法。這些算法包含了從使用了15億用戶生成的播放列表的協同過濾算法到在有關藝術家的博客和新聞中應用自然語言處理(NLP)的算法。而且,Spotify試用了利用深度學習(DL)模型的基於內容的音樂推薦系統,這個推薦系統利用的是歌曲自身的原始音頻信號而不是提供的歌曲元數據。

Netflix 的內容推薦流程包含了多種機器學習算法,而且他們也利用機器學習以個性化的方式來爲用戶推送內容。他們報道稱80%的內容消費來自自身的推薦系統而且剩下20%來源於他們的搜索服務。據他們估計每年由於個性化和推薦系統的綜合影響可以節省超過10億美元。這些發現證明了個性化內容推薦的重要性。

個性化的快餐式內容

Media Distillery的目標是以從完整的音視頻內容提取的簡短片斷(我們稱之爲快餐式內容)形式來創建和提供少量的內容,以此來迎合一些擁有幾分鐘的空閒時間而且已經知道自己想查看哪些內容的用戶,或者那些想要花費最少時間尋找相關內容的觀衆。而且Media Distillery主要想利用的資源是廣播公司和電視運營商擁有的大量的完整音視頻廣播內容。

有許多方法可以用來從完整的媒體內容中生成快餐式內容。快餐內容根據用戶案例和視頻類型也許有着不同的含義。例如,一個消費廣播新聞的人也許認爲快餐內容就是不同熱議的新聞故事;而對於一家關心自家的品牌在一則無線廣播中被提到了多少次的機構,快餐內容可能就是整個無線廣播中所有提到他們品牌的片段。所以生成快餐式內容的一個重要因素就是定義生成快餐的標準,這就要求提取豐富的元數據。

從廣播內容中提取元數據

用來生成元數據的方法衆多,作者介紹幾種代表性的方法並且與目前最先進的算法作了對比。文章中主要關注的算法是那些由於過於複雜或者計算密集在以前是無法在實際操作中應用的算法。文章中分享了作者研究中的一些初步發現。

人臉識別

人臉識別算法能夠通過給定數字圖像或者視頻幀中的人臉鑑定一個人的身份。學術研究中最先進的模型主要側重於人臉認證(face verification)和人臉身份鑑別(face identification),通過利用LFW測試集上標註的人臉來評估性能。人臉認證(face verification)主要用來判斷給定的兩張人臉照片是否屬於同一個人,而人臉身份鑑別(face identification)是將待查詢的人臉與數據庫已有人臉作比較來確定被查詢人臉的身份。然而對於文中的使用案例,人臉模型應該能夠同時檢測被查詢的人是否是未知的(不屬於希望檢測到的人臉數據集)並且能夠爲每個被檢測的人臉提供身份標籤。

圖1展示了文中的人臉識別流程,包含的子系統有:人臉檢測,人臉座標點提取和人臉對齊,一個可以生成被查詢人臉描述符(特徵向量)的深度卷積神經網絡,最後是我們專有的人臉分類器。其中最重要的組成部分是深度神經網絡。

圖1 人臉識別流程

對於人臉認證(face verification)和人臉身份鑑別(face identification),圖1中face embedding是用來檢測兩個人臉是否屬於同一個人,通過距離度量方法(如歐式距離或者餘弦相似度)來對比兩張人臉的face embedding的距離計算相似程度。

文章中採用的深度神經網絡雖然是基於FaceNet,但並沒有使用原來文章採用的Triplet Loss,而是採用了Centre Loss,通過Centre Loss 可以爲每一類學習一個類中心同時約束同一類人臉深層特徵到類中心的距離。文章人臉模型的訓練利用了MS-Celeb-1M數據集,這是目前最大的標註人臉的公開數據集,包含了10萬個人總共1000萬張人臉圖片。在訓練過程中,作者採用了諸如隨機旋轉和翻轉的多種數據增強方法。訓練得到的模型在LFW測試集上達到了99.2%的準確率,而目前最好的模型是在2.6億張人臉的數據集上訓練得到的,準確率達到99.63%。測試結果參見表1:

表1 人臉模型性能對比

儘管在準確率上文章中的模型與最好的人臉模型還有一定差距,但是作者發現那些準確率更高的模型在廣播數據中並不一定表現得更好。

由於作者在人臉識別中感興趣得並不是人臉認證(face verification)和人臉身份鑑別(face identification),所以他們利用想要檢測的人的face embedding訓練了自己專有的分類器。通過檢測不同的個體,用戶能夠搜索具體人物,而且平臺還會提供那個人在視頻中出現的片段。

除了人臉識別因照片因素(姿態,光照,遮擋等)所面臨的挑戰外,由於所採用的數據(廣播視頻)的自身性質在當前使用案例下還面臨着諸如運動模糊和隔行掃描的挑戰。在這個問題上作者計劃在將來採用數據增廣的方法來應對。此外,人臉識別系統只能在未知的視頻中識別訓練集中出現的人。而開放式的人臉識別可以先判斷這個人臉是否是已知的,如果已知然後再去識別具體身份,但目前在這方面的研究還很少。最後,由於可以獲得大量的沒有標註的視頻數據,作者計劃採用例如非監督人臉聚類的方式。

自然環境下的文本

這一部分主要解決視覺內容中的文本定位和識別問題。其中的輸入圖片可以是一個場景(如風景照中標誌和廣告牌上的文本)或者視頻畫面上的字幕(如來自電視廣播)。這些信息可能對識別視頻中發生的事件很有幫助。

文章中文本定位和識別流程由一個文本檢測器和文本識別器組成(見圖2)。文章中採用的方法參考了Faster-RCNN,採用了在ImageNet上訓練的VGG-16網絡結構,這是一種非常流行的用來做自然場景下目標分類的卷積神經網絡(CNN)。由於作者只是利用這個網絡做特徵提取,所以去掉了所有的全連接層。VGG-16得到的卷積特徵送到一個文本框推薦(text proposal)網絡中,這個網絡由兩個全連接層組成,通過全連接層在特徵圖上的滑窗爲每個特徵圖滑窗位置上的所有預定義的錨點框(anchor box)輸出一系列文本得分(textness scores)和迴歸得分(regression scores)。

圖2 文本定位和識別整體流程

根據文本得分將所有文本推薦框排序,然後將得分最高的n個文本推薦框送到文本檢測網絡。文本檢測網絡是一個多層感知器(MLP),用來判斷推薦區域是否是文本。最後將所有的單詞推薦從原圖中裁剪出來送入文本識別網絡預測單詞圖片中所描述字符最可能的序列。文章中採用的文本識別網絡是一個編碼-解碼(encoder-decoder)模型,採用了帶有軟注意力機制的Gated Recurrent Units (GRU)。

由於大部分用來做文本定位和識別的數據集都很小,而深度學習模型需要大量的數據來避免過擬合,所以最近研究人員建立了兩個合成數據集。Synth90k數據集包含900萬張合成的單詞圖片,其中720萬張用來做訓練集,90萬張用來做驗證,剩餘90萬張用來做測試。Synth800k包含80萬訓練樣本。

文章採用Synth800k數據集訓練文本檢測器並在Street View Text (SVT) 數據集和ICDAR03訓練集上微調。對於文本識別網絡,作者結合Synth90k和Synth800k總共1200萬張圖片進行訓練。模型總共訓練了2個epoch。

爲了評估文本檢測器,作者計算了SVT 和ICDAR上所有單詞的召回率。此外,作者採用從ICDAR03 , ICDAR11, IIIT5K 和SVT裁剪的單詞圖片來評估文中的文本識別網絡。測試結果見表2和表3。對比目前最好的文本檢測方法,本文提出的方法用了非常少的建議框(proposals)就達到了可以與之相比的召回率。在SVT數據集上,文中文本檢測方法利用400個建議框召回率就達到了93%而M. Jaderberg等人的方法採用了超過1萬個建議框才使得召回率達到了97%。在文本識別方面,文中採用的文本識別方法在識別準確率上與目前最好的方法非常接近,但是只需要訓練不到1個epoch。而且作者還在迭代更多的epoch來繼續訓練他們的模型並在廣播電視數據上進行微調。

表2 文本檢測方法性能評估

表3 文本識別方法性能評估

商標識別

商標識別是指當視頻流中出現品牌的商標時能夠檢測和識別出來。文中的商標識別器能夠同時檢測和識別商標。這對企業品牌去監控自家的商標在視頻中出現了多少次是很有價值的,因爲這些信息能幫助他們衡量自己品牌的影響力並改善他們在廣告上的投入。文章中商標識別模型是基於在ImageNet數據集上預訓練的Faster-RCNN結構,然後將其在他們專有的商標數據集上微調,這個數據集包含六個品牌類和一個背景類(負樣本)。模型的平均精度達到98%,平均召回率達到86%。對於文中的使用案例,主要關注的是如何減少假正例(False Positive)的數量,所以要求更高的精度而不是召回率。由於文中採用的數據集因法律原因無法公開,所以無法與現在最好的算法作對比。

快餐生成

前面的章節描述了許多用來生成快餐式內容的技術,這些技術讓我們能夠從音視頻信號中提取大量的元數據。接下來,我們需要從長視頻中生成視頻片段,而且這些片段應該是連貫的。例如,我們不能在視頻中的人物話說到一半的地方把它剪斷。爲了保證視頻片段的連貫,作者使用了視頻鏡頭轉換檢測器和場景轉換檢測器。鏡頭是由單個攝像機捕捉到的一系列沒有被打斷的相鄰幀。場景是一個更高層次很短的片段,對應視頻中故事化的部分,是由將檢測到的鏡頭組合成語意連貫的很短的視頻片段形成的。這樣就可以得到鏡頭/場景的邊界和視頻中提取的元數據。假設用戶想要看一個名人在視頻流中出現的所有片段,通過人臉識別的輸出我們可以知道特定人物出現的地方,通過剪切這個人出現地方的最近的鏡頭/場景的邊界,我們可以得到一個片段。這是一個具有挑戰性的任務,因爲儘管鏡頭有清晰的定義但如何定義一個場景卻具有高度主觀性。此外,只使用視頻流還有其它的侷限性,因爲會存在這樣的情況,視覺上的事物已經改變但是在音頻通道人物依舊在談論同一個話題。在以後的工作中,作者準備探索如何結合基於音頻的分割與視覺上的分割來解決這個問題。

內容推薦

爲了個性化地向用戶推薦音視頻內容,經常用到推薦引擎。許多電視服務供應商使用現成的基於內容的推薦系統,這種推薦系統非常依賴元數據,因爲這是它們僅有的關於內容的信息來源。在多數情況下,從這種元數據不足以得到正確的推薦因爲它要麼完全丟失要麼沒有詳細描述內容,這使得一些運營商必須得有爲推薦系統服務的編輯團隊。通過使用文中的內容理解技術,既可以自動生成廣泛且一致的元數據,也可以生成快餐程度的內容。

文中推薦內容快餐的方法除了使用常規的特定形式的元數據還利用提取到的元數據。推薦引擎能夠根據通過學習用戶在關注羣體,興趣,品牌和事件等方面得到的標籤,結合檢測到的主題,人臉,商標和目標來推薦快餐內容。

過去、現在和未來的使用案例

快餐式內容(Snackable Content)下的技術能夠以各種方式創造媒體應用程序。當自動地生成片段並且理解其中內容成爲可能的時候,許多新的使用案例將變得可行,因爲它們不再依賴手工勞動。文中作者列舉了三個使用案例。

Filmstrip

Filmstrip在向用戶推薦內容得時候將視頻的視覺特性考慮在內。大部分視頻服務只會爲每部視頻展示一張單一的縮略圖,而且在不同劇集中通常都是用的同一張圖片。單張縮略圖很難爲用戶提供即將觀看的視頻內容的線索。Filmstrip旨在通過挑選每個鏡頭裏具有描述性的關鍵幀來爲整個視頻生成一個視覺摘要。這些關鍵幀根據鏡頭的長度被剪出來然後拼成一張非常大的圖片(效果見圖3)。用戶能夠通過來回滑動與Filmstrip交互,從而可以讓用戶在視頻中搜索感興趣的內容。

Filmstrip的一個初始版本是由TNO和荷蘭新聞廣播公司NOS聯合開發和評估的。這個概念應用到NOS網站的新聞公告上。參與測試的用戶受邀參加了一項調查,這項調查總共調查了91個受訪者。64%的用戶表示他們很喜歡這個概念而且想要繼續使用它來觀看NOS的刊物內容。60%的用戶認爲這個概念產品對觀看其他內容也是有幫助的。

圖3 Filmstrip視覺圖

個性化播放列表

Spotify的Daily Mix和YouTube的Autoplay在保持用戶對他們服務的喜愛方面一直都做的很好。他們分別創建個性化的音樂和視頻播放列表,爲用戶提供舒適輕鬆的使用體驗。幾乎不需要任何交互來保持消費的內容。快餐式內容可以讓電視服務供應商和廣播公司在他們所服務的內容上創造相同的用戶體驗。

到目前爲止,Media Distillery已經貢獻了建立在這種使用案例下的兩個概念驗證:Smart Radio和NewsGenius。Smart Radio是最近同荷蘭的一家新聞廣播電臺一起開發的。目標是自動生成涵蓋用戶感興趣主題的個性化播客和新聞數據流。裏面的內容是從常規的新聞廣播和播客中生成,而且基本上只包含音頻。Smart Radio旨在將用戶線性的收聽體驗轉變爲個性化的點播體驗。

NewsGenius意在提供相似的用戶體驗但是基於的是視頻。它根據預先定義的時長(5到30分鐘)自動生成一個新聞報道,只包括用戶感興趣的主題。主題的確定通過自主的應用在語音轉化成的文本上的主題檢測器來完成。關於用戶關注主題的偏好是從消費內容中學習得到並且不斷地進行調整。爲了提供流暢的觀看體驗,主題順序以及主題間變化的緩衝內容都是經過仔細選擇。

內容發現

電視服務供應商通常在他們的劇集首播,重播和視頻點播目錄裏都擁有大量有價值的內容,但是找出你所要尋找的內容是一項巨大的挑戰。愛立信最近發佈的報告顯示人們每天在搜索相關內容上需要花費51分鐘。滿足用戶的期望需要大量的元數據,尤其隨着語音搜索(voice search)不斷普及。一個語音命令例如“show me a video of Max Verstappen overtaking Lewis Hamilton”要求深入的內容理解來返回相關結果。如果你現在在大多數電視供應商的平臺中搜索“Max Verstappen”,你會得到“0 results found”。

另一種流行的方式去發現內容是通過視頻輪播(carousels),是一些在某種程度上相關的推薦內容的(水平)列表。通過使用遙控器或者來回滑動來瀏覽這些項目既簡單又方便。在Netflix上常見的關於視頻輪播的例子是“Now popular”, “Recently added” and “Action Thrillers”。通過更好地理解內容,可以生成更具體和可能個性化的視頻輪播,涵蓋用戶關注的主題、人物和其他興趣點。

結論與未來工作

文章中介紹的服務和基礎技術仍然處於早期的發展階段。Media Distillery計劃在以下方面拓展和提高自己的服務。

首先,通過半監督和無監督學習方式加強算法的訓練。通過半監督訓練方法,只需要關注算法的建議,而無監督學習可以通過結合多種形式(如人臉和文本識別)來實現。

此外,Media Distillery計劃改進自動內容分割算法,並且還將其在純音頻訓練集上訓練來處理音頻內容分割。最近還使用了鏡頭邊界(shot boundaries)的特徵,這在音頻內容中是無法獲得的。關於如何得到音頻中邊界特徵的一個初步方法是將音頻按語音、靜音和音樂(speech/silence/music classification)分割開來。

最後,作者介紹了收集用戶反饋信息來全面評估這些服務的重要性。因爲Media Distillery 是B2B經營模式,客戶主要是電視服務、廣播電臺的運營商和其他的媒體公司,由於無法直接獲取這些公司的內容消費情況,這對衡量算法在這些公司產品上的影響帶來一定困難。相反地,例如像Netflix和Spotify這樣的公司,當他們想要評估一個新的機器學習模型時,可以隨機地在他們的部分用戶裏作對照實驗(A/B testing顯著性實驗)來判斷新的功能是否提高了產品內容的消費,如果證明有效果那麼他們就能將新的功能應用到他們的產品上。目前,文章中描述的大部分使用案例只在實驗室環境裏由公正的技術人員完成測試。而作者的計劃不僅是要爲具有技術背景的人羣提供服務,而且想要改變所有用戶發現企業經營內容的方式並提高用戶的使用體驗。

參考文獻

[1] X. Naturel and S. A. Berrani, "Content-Based TV Stream Analysis Techniques toward Building a Catch-Up TV Service," 2009 IEEE ISM.

[2] V. D. Oord et al. “Deep content-based music recommendation” 2013 NIPS.

[3] Carlos A. Gomez-Uribe and Neil Hunt. 2015. The Netflix Recommender System: Algorithms, Business Value, and Innovation. ACM Trans. Manage. Inf. Syst. 2015.

[4] F. Schroff, D. Kalenichenko and J. Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering”, 2015 IEEE CVPR.

[5] Wen et al. “A Discriminative Feature Learning Approach for Deep Face Recognition”, 2016 ECCV.

[6] S. Ren et al. “Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks”, 2015 NIPS.

[7] M. Jaderberg et al. “Reading text in the wild with convolutional neural networks”. 2014, arXiv:1412.5903.

[8] L. Gomez and D. Karatzas, “Textproposals: a text-specific selective search algorithm for word spotting in the wild”. Pattern Recognition, 2017.

[9] Prins M. and Wit J. “Scanning News Videos With An Interactive Filmstrip”. In Adjunct Publication of the 2017 ACM TVX.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章