雲棲號資訊:【點擊查看更多行業資訊】
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!
世界上首個3D多語言AI新聞記者誕生!
近日,字節跳動AI Lab聯合上海交大研究團隊發佈了全新升級版AI新聞記者Xiaomingbot。Xiaomingbot最早誕生於2016年,曾在2017年獲得吳文俊人工智能技術發明獎。(吳文俊獎被譽爲中國智能科學科技最高獎,代表着中國人工智能領域的最高榮譽)。
據瞭解,此次最新版Xiaomingbot除了新聞寫作的基本功能外,被賦予了3D動畫形象,能夠配合文本內容完成多種語言的新聞播報任務。
史上首個3D多語言AI記者來了,不僅寫作、翻譯無壓力,還能一線報道國際體育賽事
3D多功能記者Xiaomingbot
研究人員介紹,Xiaomingbot軟件系統內含新聞生成器、翻譯器和跨語言閱讀器和頭像動畫,能夠獨立完成新聞報道的整套工作流程。接下來,我們透過一場大型體育賽事的demo視頻,來看下Xiaomingbot同學的業務能力到底如何?
首先是新聞報道基本任務-寫作。可以看出,Xiaomingbot的文本生成幾乎是與比賽進展同步進行。當比賽中出現進球等特殊賽點時,Xiaoming會自動抓取信息轉換成對應的文本內容。如圖中:
左側爲比賽視頻,右側爲生成的新聞
運動員Chadli成功進球贏得一分,Xiaomingbot會實時生成文本:
第90分鐘時,納賽爾·查德利(Nacer Chadli)抓住了機會,爲比利時奪得一分,目前比分爲3-2。
妥妥的專業現場解說員。除此之外,Xiaomingbot還能夠根據數據推理出比賽結果,並附上對應的圖片。
比利時對戰日本以3:2獲勝
在2018年世界盃第16輪比賽中,比利時與日本在7月3日凌晨2點展開對戰。比利時球員Jan vertonghen,Nacer Chadli,Marouane Fellaini Bakkioui各進一球,贏得1分,日本選手Genki Haraguchi和Takashi Inui各進一球,最終比利時以3:2戰勝日本。
研究人員介紹,Xiaomingbot對數據很敏感,如比賽得分、股價變化、營收增減等,因此它非常擅長體育賽事和財經新聞領域的寫作。
其次是多語言翻譯功能。Xiongmingbot能夠對同一新聞生成多種語言形式,爲全球用戶提供新聞報道。
分別爲葡萄牙語、中文和日語
最重要的是,以上不同語言的文本內容可通過3D動畫實時語音播報。可以看出其頭部、脣部能夠配合文本內容同步移動,整體效果逼真、自然。
史上首個3D多語言AI記者來了,不僅寫作、翻譯無壓力,還能一線報道國際體育賽事
目前,Xiaomingbot在媒體平臺開通了小明看世界、小明財經等多個社交賬號,已撰寫超過了60萬篇章,吸引了超過15萬名關注者。看來其新聞報道的專業度還是受到廣泛認可的。
背後的實現原理
這篇名爲《Xiaomingbot: A Multilingual Robot News Reporter》論文已經對外公開。通過論文中的完整工作流程圖,我們可以看到,Xiaomingbot首先需要基於比賽視頻,輸出完整文本信息,並在此基礎上提取最重要和最相關的內容,形成文本摘要,進而將文本內容,輸送至機器翻譯、文本到語音轉化和頭像動畫三個模塊,最終呈現出了相應的語音和視覺效果。
完整示例
從Xiongmingbot的系統架構來看,以上功能主要通過四個模塊來實現,接下來,我們來簡要說明以上階段所涉及到的模型,以及它們是如何工作的。
Xiaomingbot系統架構
新聞生成:由數據到文本的轉化和文本總結兩個環節構成;
此前我們提到,Xiongmingbot擅長數據的監測和抓取。爲了將數據轉化爲文本,論文中採用了基於table2text技術的模板轉化的方法。
研究人員針對比賽階段、類型等多個維度設計了不同類型的模板,這些模板通常包含了時間、得分、犯規、球員,球隊名稱及其他多項指標。Xiaomingbot系統會根據文本需要從中選擇對應的模板類型,並進一步轉化成文本。
除去數據部分,Xiongmingbot還需要基於句子完成文本提取和抽象總結兩項任務。在這裏,研究人員訓練了兩個彙總模型。一種是基於BERT的常規文本摘要模型。採用了TTNews數據集進行訓練,其包括了50,000份帶有人工書面摘要的中文文件。另外一種是針對諸如足球等體育賽事而訓練出的特殊模型。該模型能夠考慮足球比賽結構,以不同方式處理諸如犯規等重要事件,更好地總結比賽報告。
新聞翻譯:採用基於Transformer架構的機器模型實時翻譯。
在這裏,研究人員預先訓練了多個神經機器翻譯模型,並採用了最先進的Transformer Big Model作爲NMT(Neural Machine Translation Systerm)組件。
另外,爲了加快翻譯速度,還創建了基於CUDA(Compute Unified Device Architecture)的NMT系統,CUDA是由NVIDIA推出的通用並行計算架構,它比Transformer架構的推理速度還要快10倍。
該模型的所使用的訓練數據集同樣非常龐大,中英轉化的數據集包含了一億個並行的句子對,中日文包含了6000萬個並行句子對。
新聞讀取:採用文本到語音(TTS)合成模型,實現跨語言輸出。
研究人員所使用的TTS合成模型,只需要一種語言的少量語音作爲訓練數據。如中文語言處理,僅包含數百名發言人的語音。另外,該TTS模型具有跨語言的語音克隆機制,可以簡單理解爲,它可以以與我們之前提供的完全相同的聲音以不同的語言實現新聞播報。
頭像動畫:同步脣部與語音輸出動作,並完成3D渲染
Xiaomingbot可以生成與TTS模型輸出音頻的同步嘴脣動作,並渲染頭髮,衣服等。對於嘴脣動作,研究人員採用的是序列-序列模型(Seq2Seq)。該模型的輸入序列是從TTS模型中提取的音素和相應的持續時間,而輸出序列則是口型權重(嘴脣運動所產生的動畫參數)。通過這些不同的口型權重,Xiaomingbot可以做出許多不同的面部表情。對於眼部、頭髮及皮膚的渲染,採用了3D渲染引擎Unity和不同的算法。
最後,研究人員表示,Xiaomingbot系統目前只是建構多功能AI系統的首次嘗試。其在文本生成、講話、表達等方面還有很大的侷限性和進步空間。未來我們將會從可擴展的工作領域和對話交互能力兩個方向進行改進和提升。
【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/live立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK
原文發佈時間:2020-07-22
本文作者:貝爽
本文來自:“雷鋒網”,瞭解相關信息可以關注“雷鋒網”