AI驅動智能媒體生產

摘要:

本文總結了發表在IBC2018上的由日本NHK的Hiroyuki Kaneko等撰寫的“AI-DRIVEN SMART PRODUCTION”,介紹了NHK在智能媒體生產方面取得的成就以及今後的發展方向。

日本廣播協會NHK開發了新型的由人工智能驅動的廣播技術,名爲“Smart Production”,可以快速地收集和分析來自社會的各種信息,並傳遞給廣大觀衆。Smart Production使用人工智能來分析從社交媒體、開放數據中獲得的各種類型的信息以及廣播電視臺擁有的製作節目相關的技術訣竅,這種方法使得它能夠提取社會中發生的事件,並將分析結果呈現給生產者。特別地,用於識別視頻中對象的圖像分析技術和用於生成訪談抄本的語音識別技術可以爲視頻鏡頭自動生成元數據。另外,爲了向包括聽力/視障人士在內的廣大觀衆傳遞信息,研究和開發人員正致力於研發將廣播數據轉換成能被具有特殊需求的觀衆理解的內容的技術。

介紹

近年來,隨着節目素材傳輸線變得高速以及記錄媒體容量的增加,廣播站已經能夠獲得大量的視頻和音頻內容用來創建節目。此外,隨着社交媒體的使用變得普遍,關於事故、事件的第一報道以及有關社會趨勢的信息都會出現在類似Twitter的社交平臺上。如今還可以監視開放數據,例如市政當局發佈的傳感器信息,並且將這些數據應用到新聞節目中。從大量視頻材料中提取節目所需的材料以及從社交媒體數據中尋找對新聞表達有用的信息對於節目製作人員來說已經變得非常麻煩。而且,爲了讓製作出來的節目能夠被包括外國和聽覺/視障人士在內的所有觀衆接受,必須將內容的格式轉換成適合所有觀衆觀看或收聽的格式。因此,NHK科學和技術研究實驗室與NHK的其他部門合作,致力於研究和開發人工智能驅動的內容製作技術和能夠覆蓋包括外國人和聽覺/視障人士在內的所有觀衆的人性化廣播通用服務(圖1)。

智能節目生產

文本大數據分析技術

NHK正在研發通過分析大數據來支持電視節目製作的技術,用於分析的大數據包括廣播電臺所擁有的節目信息以及社交網絡服務(SNS)上發佈的信息。社交媒體分析系統可以從社交媒體(包括Twitter)獲得對製作新節目有用的信息,並將這些信息進行分類,例如火災、交通事故或自然災害的發生。自動新聞稿創作系統通過使用廣播電臺過去的新聞手稿和來自河流傳感器的信息,自動準備在暴雨和颱風期間河流狀況變化的新聞草稿。

社交媒體分析系統

廣播電臺經常在社交媒體中手動搜索對節目製作有用的信息,並在確定準確性之後將這些信息用作初始的報道。如果碰巧遇到事故現場的人向SNS發佈有關事件的信息,則人們可以比以往更快地瞭解到事件的發生。但是,需要有大量的人力來從海量的SNS帖子中發現有用的信息,這給製作團隊帶來了沉重的負擔。因此,NHK開發了一個系統,可以學習已經被製作人員確定的對新聞廣播有用的推文,並搜索和提供新的有用的推文。NHK已經與新聞團隊合作開始了現場試驗。(圖2)

這個系統使用循環神經網絡(RNN)來確定出現在推文中的單詞是否包含對新聞廣播有用的信息。它已經學會將信息分爲24種新聞類別,例如火災和交通事故。利用該系統,可以將原來需要本地廣播製作者確認每天信息的工作部分自動化。該系統還接受來自節目製作成員的反饋作爲學習的新數據,用來維護和改進提取推文的功能。因此,NHK正在進行研究,期望通過使用圖像識別技術來識別推文附圖中的對象,例如火和消防車等,來提高對具有新聞價值的推文進行分類的準確性。

圖2 社交媒體分析系統

自動新聞稿創作系統

廣播電臺收集、分析和使用由公共機構和當地市政部門發佈的傳感器信息來創作廣播內容。持續監視如此開放的大量數據並快速用於創建包含如此多廣播內容的新聞稿件對於節目製作成員來講是沉重的負擔。因此,我們開發了一個新聞草稿創作支持系統來自動創建新聞手稿,作爲在大雨和其它天氣狀況下河流狀況的初步報告。該系統使用來自河流水位傳感器的信息和過去的廣播新聞手稿資料(圖3)。NHK在2017年雨季期間在本地新聞臺對該系統進行了現場試驗。

河流的水位信息是從River & Basin Integrated Communications基金會每十分鐘發佈的數據中獲得的。這些信息包括監測位置,當前水位和四個水位通知閾值,用於報告洪水預警的程度。

根據新聞臺裏積累的過去的廣播新聞手稿,該系統使用神經網絡自動提取固定表達,並識別在水位警告期間使用到的河流名稱和新聞表達。這些表達被用於創建模板。基於模板和獲得的水位數據,就可以創建新聞稿草稿,這些草稿與廣播站存儲的過去的廣播中使用的警告水位是匹配的。通過修改,記者也可以創建自己的關於河流狀況的原始新聞手稿。

圖3 自動新聞抄本生成系統

視頻分析技術

爲了能夠創建具有高質量和吸引人的解目,NHK正在推進研究視頻摘要和單色電影着色技術作爲視頻分析驅動的節目製作技術。

自動視頻摘要系統

爲了支持節目預覽視頻和摘要視頻的製作,NHK正在通過技術研究來製作自動視頻摘要。NHK已經開發出一個自動生成摘要視頻的系統,其生成的摘要視頻反映了節目製作組成員們的各種意圖。(圖4)

圖4 自動視頻摘要系統

該系統允許節目製作成員自由地爲各種信息內容設置權重,作爲自動摘要的指南。這些信息內容包含“基於推特分析的用戶響應,”“基於圖像分析的出現在場景中的人”以及“字幕和攝影作品”。在這些提示的基礎上,系統可以利用材料的特定方面自動生成摘要視頻,例如“大型字幕的顯示”,“表演者的特寫”和“快速放大”。通過分析在SNS上發佈的與節目相關的評論來了解大量觀衆的反饋以生成摘要視頻也是可能的。

單色視頻自動着色技術

NHK開發了一種使用人工智能驅動技術的自動將單色電影視頻轉換爲彩色視頻的系統來支持高效的節目製作(圖5)。通過使用這種技術爲單色電影着色,可以更加新鮮地向觀衆傳達拍攝期間的條件。

NHK使用從過去的電視節目視頻和存儲在NHK檔案中的彩色電影中收集的約20000個節目的視頻數據訓練了深層神經網絡(DNN)。分別進行顏色估計,顏色校正和向相鄰幀傳播顏色信息的三個DNN被用於自動將單色視頻轉換爲彩色視頻。

由於在節目製作過程中需要基於歷史事實進行顏色校正,NHK還開發了一種在對視頻進行着色時將用戶的指示考慮進來的系統。需要的操作包括簡單地點擊圖像上的幾個目標區域並指定應該使用的顏色或顏色的邊界。這樣,用戶可以輕鬆地校正顏色。

到目前爲止,專家每次只能爲一幀視頻手動着色,使用這種方法爲幾秒鐘的視頻着色需要好幾天的時間。使用NHK開發的系統,可以將爲五秒鐘單色短視頻着色的任務耗時從30分鐘縮短到30秒。

圖5 自動着色系統

語音識別技術

製作節目需要從大量收集到的視頻材料中進行篩選以找到需要的信息。爲此,視頻資料的音頻內容的轉錄是必不可少的,轉錄使得製作人員能夠更容易地瀏覽內容列表並查看內容本身,因此需要有能夠快速高效地完成轉錄的系統。基於這個需求,NHK開發了一種轉錄製作系統,該系統使用語音識別技術和可以在查看時輕鬆校正識別結果的用戶界面(圖6)。

圖6 音頻描述系統

爲了減少操作過程中的勞動量,這個系統允許用戶通過查看縮略圖和主要的關鍵字來快速訪問他們希望查看的區域。通過在每個單詞層面上同步語音和文本的顯示,可以僅通過幾個操作來執行對識別結果的文本修正。此外,通過基於Web應用程序的界面,廣播站內部的任何地方都可以訪問這個系統。

目前,幾個廣播電臺的部門正在修改對收集到的新聞資料和會議錄音進行語音識別的結果。展望未來,NHK計劃使用他們的反饋改進語音識別系統。

這個系統中使用的語音識別技術是爲隱藏式字幕的製作而開發的。目前,它可以識別清晰的語音,例如廣播語音。但是,收集到的視頻材料包含語音不清晰的訪談。因此,大部分材料實際上不能用於廣播。爲了讓製作者能夠確認事實並提高準確性,對這些不清晰的部分進行轉錄是必要的。因此,NHK還在繼續研發識別低辨識度語音的技術。

通用服務

自動音頻描述

廣播電臺在次要音頻頻道上提供視覺內容的評論,這些評論不能僅由主要音頻內容傳達。通過用視聽評論來補充視覺信息,能夠提高視障人士對廣播內容的理解。然而,此類音頻評論目前只適用於有限類型的預錄節目,如戲劇;例如體育節目等直播節目還不支持音頻評論。因此NHK正在推進自動音頻描述技術的研發,該技術具有自動合成語音功能(圖7)。通過應用自動音頻描述技術,NHK開發了一種使用“AI播音員”自動閱讀新聞的語音合成系統。

圖7 音頻描述系統用戶界面

直播體育賽事期間的自動音頻描述

NHK帶着實現體育賽事直播期間合成語音的目標進行研究,希望將該技術應用於2020年東京奧運會。近年來,體育賽事製作公司實現了諸如“誰”,“何時”和“發生了什麼”等賽事期間實時數據的傳播,傳播的數據包括得分、進球和懲罰等。自動音頻描述是一種全自動服務,可以根據實時數據生成腳本來解釋正在進行的比賽並且將腳本轉化爲和在可接受的程度內和廣播音頻重疊的音頻。該技術可以在難以手動執行的情況下即時創建音頻描述,還可以爲同時進行的多場體育賽事提供音頻描述。自動音頻描述還能以解說員的方式呈現。由語音合成器朗讀的腳本也可以用於實時隱藏字幕。NHK正在研究如何提高在廣播音頻中呈現自動音頻描述的方法的吸引力,並豐富詳細解說的內容。

“AI播音員”

爲了在廣播節目中全面使用語音合成技術,NHK正在進行準備,例如進行使用DNN來閱讀新聞和組織學習數據的語音合成技術研究。2018年4月,NHK在節目NEWSCHECK上以AI播音員“Yomiko”的實際形式實現了這項技術。與使用大規模收集文本和話語數據庫的連接合成方法相比,NHK通過使用DNN實現了用極少數語音樣本訓練出讀取新聞的自然語音。展望未來,NHK將着眼於支持地方廣播電臺播音員的工作,通過額外的語音學習來改進語音合成技術,以便合成更自然的語音。

手語CG

有些聽力受損的觀衆希望通過手語獲得信息,因爲單獨通過隱藏字幕提供的信息不足以完全理解廣播內容。然而,在廣播電臺能夠表達高度可靠的手語的人數量有限,而且他們當中的每一個人都不能保證長時間在同一廣播電臺工作。因此,NHK正在進行手語計算機圖形(CG)生成技術的研究,以便在每個地區使用手語第一時間呈現緊急天氣和災害信息。

根據日本氣象廳定期發送的XML數據,在預先準備好的天氣預報手語模板例如“天氣”,“溫度”和“下雨的機會”等內容中填充數字數據。然後由自動生成的手語CG動畫角色呈現該信息。在確認聾人能否理解自動生成的手語表達的實驗中,肯定的答案率佔到了96%,證實了通過該方法呈現手語的有效性。目前,NHK Online網站上已經建立了天氣信息手語CG評估網頁,它以手語形式提供天氣信息,並且每天會自動更新三次。

此外,類似於對自動音頻描述技術的研究,NHK也正在研究將手語CG應用到體育節目中。到目前爲止,已經在Web瀏覽器上創建了展示體育視頻和對應手語CG的原型系統。該系統使用在體育賽事期間發送的現場數據自動生成有關比賽條件和規則的手語CG。(圖8)NHK還設計了用視覺方法呈現體育賽事中的興奮時刻的方法。對參與實驗的聽力障礙者的調查問卷答案顯示,他們非常喜愛這種通過解說無法獲得的信息。未來NHK將進一步評估該系統對聽力受損者的影響,以確定體育項目所需要的手語CG功能,並在2020年實際應用。

結論

利用社會和過去的電視節目檔案提供的各種信息,本文介紹的文本大數據分析,視頻分析和語音識別技術可以使廣播電臺快速有效地獲取節目需要的信息,並使製作成員能夠順利地製作節目。此外,實現能夠準確地向所有觀衆(包括聽力和視覺障礙者)提供信息的通用服務是公共廣播的關鍵,本文介紹了實現這一目標的優先工作。

展望未來,NHK表示將充分利用與引入了研究成果的本地廣播公司近鄰的優勢,繼續推進研究和開發,以便到2020年實現最高的廣播服務標準。

參考文獻

1. Goto, J., et al., 2018. Automatic Tweet Detection based on Data Specified through

News Production, Proc. of IUI2018 Companion, No.1.

2. Matsui, A., et al., 2017. Broadcast Video Summarization using Multimodal Contents

Analysis, IEICE technical report, PRMU (in Japanese).

3. Endo, R., et al., 2017. Study of Multi-Scale Residual Network for Image-to-Image

Translation, ITE technical report, ME (in Japanese).

4. Ito, H., et al., 2017. End-to-end Speech Recognition for Languages with Ideographic

Characters, APSIPA ASC, Paper ID 118.

5. Kurihara, K., et al., 2017. Automatic Generation of Audio Descriptions for Sports

Program, Proceedings of 2017 International Broadcasting Convention.

6. Uchida, T., et al., 2017. Sign Language Support System for Viewing Sports Programs,

Proc. of ACM ASSETS 2017, p.339-340.

7. Hiroyuki Kaneko, Jun Goto, Yoshihiko Kawai, Takahiro Mochizuki, Shoei Sato, Atsushi Imai, Yuko Yamanouchi, 2018. AI-DRIVEN SMART PRODUCTION. IBC2018.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章