基於知識圖譜的多模內容創作技術

導讀： 由於大數據時代的發展，知識呈指數級增長，而知識圖譜技術又在近年來逐步火熱，因此誕生了利用知識圖譜技術進行智能創作的新想法。本文將分享基於知識圖譜的多模內容創作技術及應用。主要包括以下四大部分：

百度知識圖譜概覽
百度智能創作全景
多模內容創作技術
落地產品及應用案例

分享嘉賓｜卞東海百度高級研發工程師
編輯整理｜蔣郭鑫河海大學
出品社區｜DataFun

01/百度知識圖譜概覽

首先介紹一下百度知識圖譜的概覽。

知識圖譜的基本結構

知識圖譜以結構化的知識來描述客觀世界的概念、實體及其屬性和關係。從上圖例子中我們可以看到，和梁啓超相關的一些概念和關係，比如教育家和政治家是和梁啓超相關的一些身份概念，而梁啓超和梁思成是父子的關係。

百度知識圖譜的發展歷程

回顧百度知識圖譜在過去十多年的主線工作和發展歷程，主要經歷了四個階段：

第一個階段在2013年以前的Pre-KG階段，這也是學界和業界知識圖譜發展的初級階段，百度的知識圖譜立項並開始運用於百度知識搜索的知心產品；

第二階段在2014年至2015年，是知識圖譜方法論和架構逐漸成型的階段，我們建立了垂類的領域知識庫，並規模化地應用於搜索的各類產品之中；

第三個階段在2016年至2017年，逐漸地深入建設通用知識圖譜相關的架構、算法和機制，開始全面應用於搜索、金融、客服、商業等各類產品線；

第四個階段在2018年以後，這一階段，技術建設的重點在於多元知識圖譜的異構互聯、圖譜的主動輸入和自學習、多媒體知識、複雜知識以及行業知識圖譜的理解與構建等。

百度知識圖譜的技術視圖

上圖爲百度知識圖譜技術視圖，首先是知識獲取技術，即各種信息抽取的技術；接下來是知識整合技術，用於多元知識的融合；然後是知識補全和擴展的技術，用於不斷地豐富知識圖譜的內容；知識表示學習、知識推理與計算等認知技術主要運用在搜索、推薦問答等業務當中；最後，收錄模型可以持續高效地更新知識。最下面是支撐上面所有知識發現、組織與獲取應用能力的架構和平臺。

通用知識圖譜應用

我們的通用知識圖譜目前在百度的核心業務中廣泛地應用，比如在搜索業務中支持了智能搜索，可以直接返回問題的答案。在信息流的推薦業務中，基於各類圖譜去提升推薦的質量。在DuerOS等智能對話產品上，提供了大量優質的內容。

行業知識圖譜應用

我們的行業知識圖譜目前賦能了許多行業領域：

首先是基於海量專業知識構建的醫療知識圖譜，其包含了千萬級的醫學事實，並開發了基於專業醫療知識的醫療計算認知引擎，在多家三甲醫院上線使用；

其次是智慧司法，我們完成了標準、精細、體系化的類案知識體系的構建，類案推薦效果顯著，在法案實際的使用當中，結案的效率提高了一倍以上；

最後是智能客服，我們引入知識圖譜，沉澱客服知識和信息資源，通過理解客戶的意圖，支持客服坐席的知識提示，人工通話的接單量降低了70%。

02/百度智能創作全景

內容創作挑戰

創作，是對人類現有知識和素材的組織和再創造。在內容創作領域，像媒體、金融、政企都有大量的創作需求，比如新聞稿件、金融報告、公司公文等。在創作時一般都有以下四個痛點：

第一是如何從海量信息中獲取到有價值的內容；

第二是時效性要足夠高，像新聞稿件尤其是熱門事件的新聞，肯定是越快越好；

第三是要把控內容的質量，避免出現錯誤；

第四是內容覆蓋要廣泛，包括長尾和冷門領域。

百度大腦智能創作平臺全景圖

針對上述問題解決方案，可以簡單總結爲百度大腦智能創作平臺全景圖，基於NLP、知識圖譜、視覺、語音的技術和數據，我們研發了智能自動創作和智能輔助創作的技術。在應用層提供包括新聞線索、熱點分析、智能寫稿、視頻創作等核心的功能，可以滿足各個行業創作的需求。下面會詳細介紹每個功能的核心點：

（1）自動創作：讓作者從重複工作中解放

首先是智能自動創作，通過數據加自動寫作引擎的方式，實時大量地生成覆蓋多個領域的資訊，讓創作者從重複的工作中得到解放。像天氣文章，每天都需要在規定的時間內高效地發佈數千篇文章，單純人工很難完成這些工作。

但其實機器並不能夠完全取代人類作者，機器的優勢在於它的高時效性、豐富的素材和大數據分析能力，而人工撰稿在內容的深度、精彩的程度、題材的多樣上遠勝於機器，所以我們的思路是讓機器與創作者去分工協作。

（2）輔助創作：全流程智能輔助，全能賦能內容生產

於是，我們同樣打造了智能輔助創造的能力，從創作前的素材的採集、理解，給作者提供熱點的發現、熱詞分析的能力，到創作中的素材的推薦、編排，再到創作後的質量檢測、提升，全流程的提供輔助創作的功能。自動和輔助的相結合，可以實現效率與質量的雙收。

03/多模內容創作技術

在介紹核心技術前，先看下機器創作和人工創作的區別，以媒體爲例，創作過程一般有五個部分，分別是策、採、編、審、發。具體來講，策是策劃、要寫什麼，採是根據要寫的主題去找相關的素材，編則是根據找到的素材寫文章或製作視頻，然後是審覈和發佈。機器創作分別扮演着不同的角色，比如自動創作這個線條，其主要側重點是在於採和編輯；而輔助創作這個線條，側重點就在於採集、策劃和審。

自動圖文創作

從我們目前已發佈的文章類型來劃分，這裏列出了六大類常見的自動創作出的文章：

第一類是計算/數值類，主要場景是天氣、體育、股市等；

第二類是聚合類，是通過素材不同緯度的理解，將相關的素材組織成文；

第三類是濃縮類，就是將數千字的內容進行篇章級的摘要，同時要符合原內容的篇章邏輯；

第四類是事件類，主要是對同一個主題事件的不同階段進行回顧；

第五類是分析類，主要是對同一個事件進行多維度分析其利弊，總結成文；

第六類是視頻轉寫，它將視頻內容進行總結，從而形成一篇文章。

那麼機器到底是怎麼創作的呢？一般來說要包括四步：寫作觸發、文章生產、質量控制和文章發佈階段。

這裏重點是寫作觸發和文章生成階段，寫作觸發有兩種方式，一種是主動的，比如話題挖掘，我們要找到話題之後纔會寫作；另外一種是被動的，比如我們每天都能看到的大量的天氣、股市預警信息自動的更新。文章生成是自動創作的核心，機器的寫作的時候其實和人的寫作思路差不多，首先我們需要有一個宏觀的規劃，其次是每一段要寫什麼，要用什麼樣的方式、什麼樣的數據這些，進行微觀的規劃，最後表層實現就是要對上面規劃後的類似寫作模板一樣的東西進行具體的實現。

下面來看一下圖文創作實現這些能力的關鍵技術概覽：

在技術概覽當中，我們可以看到無論是寫作觸發，還是文章生成，底層都需要依賴於知識圖譜作爲輸入，上層比較依賴於兩個重要的技術方向，一個是理解，另外一個是生成。

下面分別介紹具體關鍵技術：

（1）通用知識圖譜

第一個比較關鍵技術就是通用知識圖譜，通用知識圖譜裏面有非常多的有價值的信息。以生成明星CP類的文章爲例，我們需要從圖譜中去獲取明星之前的關係作爲文章內容的切入點。比如，鄧超和孫儷，通過圖譜機器可以知道他們是夫妻的關係；如果想在文章的正文當中插入一些關於鄧超的介紹，可以直接在圖譜中獲取鄧超相關的個人公開的信息。所以知識圖譜在智能創作中扮演着核心的角色，貫穿全流程。

（2）事件圖譜

我們的世界無時無刻不發生着事件、新聞資訊，絕大部分也都會包含事件。人的一些屬性或者關係可能會隨着時間發生變化，比如美國總統是誰這個問題，在2021年1月20號之前是特朗普，之後則變爲了拜登。如果只是使用通用知識圖譜，並不能得到這些動態變化的信息，而事件圖譜可以很好地補充這一缺陷。

（3）話題挖掘

有了圖譜作爲基礎，接下來就可以從全網域的數據中獲取一些相關的諮詢信息；然後我們從通用的知識圖譜當中獲取到對應的資訊中的實體概念，從事件圖譜當中獲取與資訊對應的的熱門事件；接着再對這些概念和資訊進行進一步的分析和理解；最後依據寫作類型，分別確定哪些話題可用，就可以得到我們的寫作話題。圖上的例子中，像“烏克蘭”就是一個比較泛的話題，而“烏克蘭局勢”相對就屬於比較好的話題。

（4）素材組織

有了話題，接下來就是如何去組織文章的素材，在傳統的做法當中，當挖掘出寫作的主題之後，一般是直接檢索關聯的素材，嵌入模板就結束了，這種方案是比較淺層的，整體的文章邏輯非常零散。在我們的做法中，首先對素材包含的知識進行分析整合，形成一個體系化的知識信息，在生成文章時，將該知識信息結合圖譜中其他的相關聯的知識同時作爲輸入，這樣生成的文章內容上會更加豐富，文章的整體性邏輯會更強。

（5）文本生成

文本生成是自然語言生成下面的一個子任務，有很多種類型，從單模態到多模態，這裏我們常用的有三大類，分別是文本到文本生成、數據到文本生成、多模到文本生成。針對不同的場景會使用不同的技術方案，包括模型、規則、模板等。

下面看不同的生成任務具體是如何實現的。

文本到文本生成，以摘要爲例，摘要生成一般有兩種方案，一種是抽取式，另外一種是生成式。在真實場景中，我們主要還是使用抽取式的方法。

除了算法本身，其實還要輔助很多的規則，比如說摘要開頭的句子不太合適，在這種情況我們會使用詞典來進行過濾。

另外，在一些場景下比如聚類的文章，考慮到生成文章的多樣性，我們也會同時使用生成式的方法。

有了圖譜信息和摘要生成技術，就可以做很多類型的文章了，比如上圖的文章，它是一個事件脈絡追溯的文章，把中國的第一輛火星車“祝融號”的來龍去脈進行了一個非常詳細的盤點。

數據到文本生成，主要用在計算數值類的快訊文章，核心問題是如何去構建文章的模板。一般有三種方法：第一種是人工去構建初始的模板；第二種是從網上找到大量訓練的數據，從中挖掘出對應的KV對信息，然後通過bootstrap的方式去訓練；第三種是根據輸入的KV對去直接生成，這種方案在短文案生成上的效果較好，但是在文章級的長文本生成上，目前還有很多問題。所以我們還是主要使用前兩種方式去生成文章。

視頻到文本的生成方式，應用場景有很多，比如大家比較熟悉的視頻會議記錄，就是一種，當然了它們是不同的研究範疇。對於視頻轉圖文，我們的主要目標是希望生成的文章能夠很好地表達視頻的內容。

我們目前的方法當中會同時使用模型和規則。首先是做視頻的理解，得到視頻的一些感知數據，像ocr、asr相關的信息，爲了確保文章的準確率，我們會使用ocr和asr做一個雙向的校驗，對輸出的字幕會使用Ernie進行分類，最後結合每一段去選擇對應的關鍵幀作爲圖片。有了文本和對應的關鍵幀作爲配圖，就可以按照這種時間的邏輯順序生成一篇視頻轉寫的文章。

（6）配圖生成

除了文本生成，我們還探索了文本到圖片生成，這是一個非常有應用價值的技術，它除了可以生成各種類型的圖片，還能夠幫助公司去避免圖片版權相關的一些問題。對這方面技術瞭解的同學，應該都看過DALL·E的生成效果，可以說是非常驚豔的，但仍存在一些問題，比如圖片分辨率較小，圖片質量不是特別高，所以是不可以直接落地使用的。另外，在真實的場景下，作者檢索圖片時，輸入的往往都是概念，而DALL·E更偏向於對確定性實體進行細節性描述。所以我們的做法是，首先使用VQ-GAN代替了DALL·E的VQ-VAE，並且提高了圖片生成的分辨率。上圖多肉植物圖片，可以看到，質量是非常高的；然後結合知識圖譜讓模型學習到更多的和抽象概念相關的知識，保證模型能夠理解人類常識性的概念，在右上角這個示例中，可以看到，當輸入的是“森林之王”時，模型依然可以很好地生成對應的實體，而且質量上相對也更好。

自動視頻創作

除了圖文創作，我們在視頻創作上也進行了非常多的工作，在公司內部和外部的合作當中也落地了很多的應用。對於視頻的類型，我們一般從輸入數據的類型來進行劃分，可以分爲三大類，分別是：視頻到視頻、文章到視頻和數據到視頻。

視頻跟圖文創作相比，最不一樣的地方就是多了一個視頻渲染的流程，視頻渲染是非常繁瑣耗時的事情，尤其是後臺自動化的渲染；所以我們針對創作的場景構建了我們自己的視頻生成引擎，它的底層主要是基於FFMPEG。我們把常用的一些操作都封裝爲渲染函數，然後根據輸入和模板進行視頻的高效生產。

視頻創作的一個關鍵技術是“視頻理解圖譜”，在以視頻作爲輸入的場景下（也就是video2video），對視頻素材的理解是進行後續生成的第一步。比如上圖左上角給出的視頻，如果從標題看，我們幾乎得不到任何有關該視頻的具體信息，但是我們通過對視頻內容的感知，可以知道里面出現的演員有哪些，出現了哪些實體、地點；然後通過和知識子圖進行關聯就可以得到對應的影視劇的子圖，對子圖再進行實體地點的計算推理，就可以得到其對應的影視劇信息，後續使用視頻素材就會非常容易。

另外一個關鍵技術是視頻場景識別，其在學界的研究對象主要是“時序動作提名”。在自動創作的時候，我們會從挖掘的信息中獲取用戶最喜歡觀看的一些視頻場景，然後對這些場景進行抽象。比如我們發現像親吻、扣籃、打鬥等場景都是用戶喜歡的類型。因此，我們就基於時序動作提名的算法來進行包含該動作場景的一些識別和檢測。當識別出這些場景之後，結合視頻理解圖譜，就會得到當前視頻片段所屬的影視劇是哪一個，這樣就相當於對每個視頻進行時序上打標籤。有了這些標籤之後，可以把需要的視頻片段進行整合，通過一定的構建策略，生產精彩集錦類的視頻。

另外一個比較常見的視頻類型是圖文轉視頻，創作者只需要進行一次的稿件撰寫，就可以實現多種模態的發佈，可以大大節省人力。對於生成的資訊視頻一般要求要足夠的簡潔，視頻的內容要和語音有對應關係。

圖文轉視頻的過程大概可以分爲以下步驟：

首先生成文章摘要，文章一般來說都是包含數百上千字的內容，但是資訊類的視頻長度可能在30秒到100秒左右，因此我們需要進行摘要；

其次需要對摘要後的文本進行錨點選擇，錨點就是摘要後的一些比較關鍵的信息片段，比如上圖例子中“英特爾”就是一個比較關鍵的錨點，這樣做主要的原因是生成視頻的素材輸入大部分情況下都很少，比如可能就2-3張圖，我們要把最相關的素材給到用戶關注度最高的時間點上；

對於這些關鍵信息出現的時間點，需要有對應的高相關的素材進行展示，比如上述例子中的，當語音說到“intel”的時候，視頻展示的是文章裏面的包含intel的配圖，如果文章中無對應的高相關性的圖片視頻素材，那就通過檢索關聯，從知識圖譜中獲取對應的信息；

對於非錨點的時間區間，可以使用文章中的其他低值素材作爲填充，同樣地，如果無素材，則從知識圖譜中獲取相關素材；

最後，使用視頻生成引擎進行視頻的渲染。

最後是數據轉視頻，像前面介紹的數據到文本的生成，理論上來說都可以通過視頻化的方式展示。在我們的應用中，也發現視頻方式展示的內容比圖文更加受用戶的喜愛，因此我們構建了非常多的通用的視頻模板。比如上圖中深圳房價動態的視頻，我們可以定期獲取動態更新的數據，再結合知識圖譜中已有數據，就可以生成房價波動視頻，從而滿足用戶觀看的需求。

輔助創作

輔助創作核心的價值是可以告訴用戶有什麼可以寫，我們有跟媒體編輯聊過，他們認爲整個創作流程當中第一步的策劃其實是最難的，即如何找到有價值的創作點，而輔助創作剛好可以做到這一點。以幫助用戶進行選題策劃爲例，我們可以將各類資訊的各個緯度進行理解和展示，激發用戶的創作靈感。

輔助創作最關鍵的技術就是主題圖譜，它是支撐創作選題和選材的核心。

上圖左邊的這張圖中，大的節點代表一個主題，藍色的是實體主題，紅色的是事件主題，每個主題都有相應的素材、熱度、稀缺度、行業和地域等屬性，主題之間的邊關係包括了實體的spo關係、事件的從屬關係以及更爲抽象發散的隱式的關係。上圖右邊的這張圖是主題圖譜的構建過程，首先我們是以實體、事件圖譜、query、新聞等作爲基礎數據，然後進行主題、屬性和邊關係的挖掘，最後爲用戶提供按照熱度、稀缺度進行主題素材的推薦和檢索，另外還能夠基於邊關係進行主題的擴展。

下面具體看一下主題圖譜具體是如何構建的：

主題分爲實體主題和事件主題，他們的挖掘方式各有不同。

實體主題：我們以百度的核心集爲基礎，通過實體概念標註，從各種資訊中挖掘出實體概念主題，並抽取和計算每個主題的屬性。

事件主題：我們通過對客觀世界發生的事件，通過對篇章進行閱讀理解、問答的方式來抽取出事件主題。事件抽取策略通過百度ERNIE—基於知識增強的語義理解模型進行多輪問答技術來實現的。

對於邊關係的挖掘，我們劃定了三類邊關係，第一種是KG實體中的spo關係，第二種是事件之間的關係，但以上這兩種關係都受限於嚴謹的語義關係，而創作者在選題的時候往往會需要一些比較發散的、抽象性的思考。因此我們採用隱式關係來滿足這種需求，具體的做法是：首先從篇章中抽取出主題，然後對篇章的要素進行標註，比如實體、地點、以及重要的term，接下來分別從篇章數量熱度、站點權重和共現位置計算這些term與主題的關係強度，再計算時效性的衰減，最後得到隱式關係的強度。

輔助創作的另外一個比較有價值的應用是媒資智能管理，簡單來說就是幫助各個媒體進行視頻的拆條、編目、標註的能力。拆條就是對一個完整的視頻進行分割，像新聞聯播，它可以分爲很多的獨立的片段，拆條的力度可以是片段級、場景級、鏡頭級；編目就是對拆條後的視頻進行總結的描述。

針對媒資智能管理應用場景，我們構建了多模素材理解技術。通過獲取視頻中的感知數據信息，然後對關鍵信息進行整合輸出。比如跨場景的人臉追蹤，可以幫助我們對視頻進行多粒度的拆條，通過對這種實時資訊的抓取、理解以及檢索和視頻asr的解析，可以幫助我們生成編目的解析。目前，我們的方案在拆條、編目的效率上比純人工提升了3-4倍。