多模態知識圖譜

知識圖譜技術已經被廣泛用於處理結構化數據(採用本體+D2R技術)和文本數據(採用文本信息抽取技術),但是還有一類非結構化數據,即視覺數據,則相對關注度較低,而且相缺乏有效的技術手段來從這些數據中提取結構化知識。最近幾年,雖然有一些多模態視覺技術提出,這些技術主要還是爲了提升圖像分類、圖像生成、圖像問答的效果,不能很好地支撐多模態知識圖譜的構建。視覺數據庫通常是圖像或視頻數據的豐富來源,並提供關於知識圖譜中實體的充分視覺信息。顯然,如果可以在在更大範圍內進行鏈接預測和實體對齊,進而進行實體關係抽取,可以使現有的模型在綜合考慮文本和視覺特徵時獲得更好的性能,這也是我們研究多模態知識圖譜(multi-modal knowledge graph)的意義所在。

目前,已經有很多開放知識圖譜(見https://lod-cloud.net/openkg),而且不少企業也有自己的企業知識圖譜。然而,這些知識圖譜很少有可視化的數據資源。圖1所示爲多模態知識圖譜的發展過程。

圖1.多模態知識圖譜的發展過程

多模態知識圖譜與傳統知識圖譜的主要區別是,傳統知識圖譜主要集中研究文本和數據庫的實體和關係,而多模態知識圖譜則在傳統知識圖譜的基礎上,構建了多種模態(例如視覺模態)下的實體,以及多種模態實體間的多模態語義關係。例如在最新的一個多模態百科圖譜Richpedia中(如下圖2所示)[5],首先構建了圖像模態倫敦眼圖像與文本模態知識圖譜實體(DBpedia實體:London eye)之間的多模態語義關係(rpo:imageof),之後還構建了圖像模態實體倫敦眼與圖像模態實體大本鐘之間的多模態語義關係(rpo:nextTo)。

圖2.Richpedia中的多模態實體與多模態語義關係

一、多模態知識圖譜相關工作

隨着人工智能技術的不斷髮展,知識圖譜作爲人工智能領域的知識支柱,以其強大的知識表示和推理能力受到學術界和產業界的廣泛關注。近年來,知識圖譜在語義搜索、問答、知識管理等領域得到了廣泛的應用。其中在描述多媒體的可用數據集中,現有的工作重點是捕獲多媒體文件的高級元數據(如作者、創建日期、文件大小、清晰度、持續時間),而不是多媒體內容本身的音頻或視覺特性。以下會介紹幾個重要的開源多模態知識圖譜:

1.DBpedia[1]

DBpedia作爲近十年來語義網研究的中心領域,其豐富的語義信息也將會成爲今後多模態知識圖譜的鏈接端點,其完整的本體結構對於構建多模態知識圖譜提供了很大的便利。DBpedia項目是一個社區項目,旨在從維基百科中提取結構化信息,並使其可在網絡上訪問。DBpedia知識庫目前描述了超過260萬個實體。對於每個實體,DBpedia定義了一個唯一的全局標識符,可以將其解引用爲網絡上一個RDF描述的實體。DBpedia提供了30種人類可讀的語言版本,與其他資源形成關係。在過去的幾年裏,越來越多的數據發佈者開始建立數據集鏈接到DBpedia資源,使DBpedia成爲一個新的數據web互聯中心。目前,圍繞DBpedia的互聯網數據源網絡提供了約47億條信息,涵蓋地理信息、人、公司、電影、音樂、基因、藥物、圖書、科技出版社等領域。

2.Wikidata[2]

Wikidata中也存在大量的多模態資源,Wikidata是維基媒體基金會(WMF)聯合策劃的一個知識圖譜,是維基媒體數據管理策略的核心項目。充分利用Wikidata的資源,主要挑戰之一是提供可靠並且強大的數據共享查詢服務,維基媒體基金會選擇使用語義技術。活動的SPARQL端點、常規的RDF轉儲和鏈接的數據api是目前Wikidata的核心技術,Wikidata的目標是通過創造維基百科全球管理數據的新方法來克服數據不一致性。Wikidata的主要成就包括:Wikidata提供了一個可由所有人共享的免費協作知識庫;Wikidata已經成爲維基媒體最活躍的項目之一;越來越多的網站在瀏覽頁面時都從Wikidata獲取內容,以增加大數據的可見性和實用性。

3.IMGpedia[3]

IMGpedia是一個大型的鏈接數據集,它從Wikimedia Commons數據集中的圖像中收集大量的可視化信息。它構建並生成了1500萬個視覺內容描述符,圖像之間有4.5億個視覺相似關係,此外,在IMGpedia中單個圖像與DBpedia之間還有鏈接。IMGpedia旨在從維基百科發佈的圖片中提取相關的視覺信息,從Wikimedia中收集所有術語和所有多模態數據(包括作者、日期、大小等)的圖像,併爲每張圖像生成相應的圖像描述符。鏈接數據很少考慮多模態數據,但多模態數據也是語義網絡的重要組成部分。爲了探索鏈接數據和多模態數據的結合,構建了IMGpedia,計算Wikipedia條目中使用的圖像描述符,然後將這些圖像及其描述與百科知識圖譜鏈接起來。

IMGpedia是一個多模態知識圖譜的先例。將語義知識圖譜與多模態數據相結合,面對多種任務下的挑戰和機遇。IMGpedia使用四種圖像描述符進行基準測試,這些描述符的引用和實現是公開的。IMGpedia提供了Wikidata的鏈接。由於DBpedia中的分類對一些可視化語義查詢不方便,所以IMGpedia旨在提供一個更好的語義查詢平臺。IMGpedia在多模態方向上是一個很好的先例,但也存在一些問題,比如關係類型稀疏,關係數量少,圖像分類不清晰等,也是之後需要集中解決的問題。

4.MMKG[4]

MMKG主要用於聯合不同知識圖譜中的不同實體和圖像執行關係推理,MMKG是一個包含所有實體的數字特徵和(鏈接到)圖像的三個知識圖譜的集合,以及對知識圖譜之間的實體對齊。因此,多關係鏈接預測和實體匹配社區可以從該資源中受益。MMKG有潛力促進知識圖譜的新型多模態學習方法的發展,作者通過大量的實驗驗證了MMKG在同一鏈路預測任務中的有效性。

MMKG選擇在知識圖譜補全文獻中廣泛使用的數據集FREEBASE-15K (FB15K)作爲創建多模態知識圖譜的起點。知識圖譜三元組是基於N-Triples格式的,這是一種用於編碼RDF圖的基於行的純文本格式。MMKG同時也創建了基於DBpedia和YAGO的版本,稱爲DBpedia-15K(DB15K)和YAGO15K,通過將FB15K中的實體與其他知識圖譜中的實體對齊。其中對於基於DBpedia的版本,主要構建了sameAs關係,爲了創建DB15K,提取了FB15K和DBpedia實體之間的對齊,通過sameAs關係鏈接FB15K和DBpedia中的對齊實體;構建關係圖譜,來自FB15K的很大比例的實體可以與DBpedia中的實體對齊。但是,爲了使這兩個知識圖譜擁有大致相同數量的實體,並且擁有不能跨知識圖譜對齊的實體,在DB15K中包括了額外的實體;構建圖像關係,MMKG從三大搜索引擎中獲取相應文本實體的圖像實體,生成對應的文本-圖像關係。但是,它是專門爲文本知識圖譜的完成而構建的,主要針對小數據集(FB15K, DBPEDIA15K, YAGO15K)。MMKG在將圖像分發給相關文本實體時也沒有考慮圖像的多樣性。

二、基於百科多模態知識圖譜Richpedia

雖說之前的一些工作如IMGpedia和MMKG融合了多模態的知識,構建了多模態知識圖譜,但其中也存在一些問題,例如在IMGpedia中關係類型稀疏,關係數量少,圖像分類不清晰等,在MMKG中圖像並沒有作爲單獨的圖像實體存在,而是依賴於相應的傳統文本實體。這些問題對於多模態任務的發展有着較大制約,東南大學認知智能研究所基於解決如上存在的問題的動機,提出了多模態知識圖譜Richpedia[5]。

Richpedia多模態知識圖譜的定義如下:實體集合E包括文本知識圖譜實體EKG和圖像實體EIM,R表示一系列關係的集合,其中E和R利用統一資源標識符(IRIs)表示。L是文字的集合(例如:“倫敦”,“750px”),B表示爲一系列的空白節點。Richpedia三元組t表示格式爲<subject, predicate, object>,是(E∪B)×R×(E∪L∪B),Richpedia多模態知識圖譜是Richpedia三元組的集合。

在構建多模態知識圖譜中,總體模型如圖3所示。接下來我們會逐步介紹構建Richpedia的流程。

圖3.構建Richpedia總體流程

與一般的文本知識圖譜不同,Richpedia的出發點是構造一個多模態知識圖譜,其中包含了全面的圖像實體及其之間的關係。但是,如圖4所示,文本知識圖譜實體的圖像資源有很大一部分是長尾分佈。換句話說,平均每一個文本知識圖譜實體在Wikipedia中只有很少的視覺信息。因此,我們考慮藉助外部來源來填充Richpedia,首先我們基於現有的傳統文本實體,從維基百科,谷歌,必應和雅虎四大圖像搜索引擎中獲取相應的圖像實體,每一個圖像作爲知識圖譜中的一個實體存儲於Richpedia中。Wikidata已經爲每個文本知識圖譜實體定義了唯一的統一資源標識符,我們將這些統一資源標識符添加到Richpedia作爲文本知識圖譜實體。在目前的版本中,我們主要收集了30,638個關於城市、景點和名人的實體。對於圖像實體,我們可以直觀地從Wikipedia上收集圖像,然後在Richpedia中創建相應的統一資源標識符。

圖4.Wikipedia中的圖像分佈比例

在收集完圖像實體之後,我們需要對圖像實體進行預處理和篩選。因爲我們的數據來自於開放資源,它們會被搜索引擎基於與查詢字段的相關性評分進行排名。從多模態知識圖譜的角度而言,文本知識圖譜實體所包含的圖像實體不僅要相關性高而且還要具有多樣性,如圖5所示,對於中間的圖像實體,右側的圖像實體因爲較高的相似性從而被系統過濾掉,保留左側相似性較低的圖像實體。因爲從搜索引擎中獲取的圖像實體難免存在重複問題,接下來我們通過一系列的預處理操作,使得每個圖像實體都與相應的傳統文本實體具有較高的相關度。其中預處理操作包括去噪操作和多樣性檢測,去噪操作的目的是去除不相關的圖像實體,多樣性檢測的目的是使得圖像實體具有儘可能高的多樣性。

圖5.Richpedia中圖像實體的多樣性

因爲很難基於不同圖像的像素特徵直接檢測出這些語義關係,所以我們利用基於規則的關係抽取模板,藉助Wikipedia圖像描述中的超鏈接信息,生成圖像實體間的多模態語義關係。在圖6中,我們以rpo:contain和rpo:nearBy爲例說明如何發現協和廣場,盧克索方尖碑和航運噴泉圖像實體間的語義關係。如圖6所示,我們在中文維基百科中協和廣場詞條中獲取到包含盧克索方尖碑和航運噴泉的圖像實體,從語義視覺關係的角度上看,協和廣場包括了盧克索方尖碑和航運噴泉,盧克索方尖碑就在航運噴泉的旁邊。爲了發現這些關係,我們收集這些圖像的文本描述,並提出三個有效的規則來提取多模態語義關係:

規則1. 如果在描述中有一個超鏈接,其指向的對應Wikipedia實體的概率很高。我們利用Stanford CoreNLP檢測描述中的關鍵字。然後,通過字符串映射算法發現預定義關係。例如,如果我們在兩個實體之間的文本描述中得到單詞‘left’,我們將得到‘nearBy’關係。

規則2. 如果描述中有多個超鏈接,我們基於語法分析器和語法樹檢測核心知識圖譜實體(即描述的主體)。然後,我們以核心知識圖譜實體作爲輸入,將這種情況簡化爲規則1。

規則3. 如果在描述中沒有指向其他詞條的超鏈接,我們使用Stanford CoreNLP來查找描述中包含的Wikipedia知識圖譜實體,並將這種情況簡化爲規則1和規則2。因爲規則3依賴於NER結果,準確率低於相應的預標註超鏈接信息,所以它的優先級低於前兩個規則。

圖6.Richpedia中多模態語義關係發現

三、基於Richpedia的多模態知識服務網站

Richpedia網站(http://rich.wangmengsd.com/)是爲Richpedia多模態知識圖譜開發的一個網站,其提供了對Richpedia數據庫的介紹,查詢,資源檢索,使用教程以及數據下載服務。其中包括:

a) Homepage:主要對Richpedia數據庫進行了概述。

圖7.Homepage界面

b) Download:提供了image文件和三元組關係N-Triples文件的下載鏈接。

圖8.Download界面

c) SPARQL:實現了對Richpedia數據庫中的實體和視覺關係的SPARQL查詢。

圖9.SPARQL查詢界面

d) Query:提供了對地名和人物的直接查詢相關圖片功能。

圖10.查詢界面

圖11.查詢結果

e) Tutorial:提供了網站的使用教程。

首先,我們可以在Richpedia中查詢實體信息,包括圖像實體實體和文本知識圖譜實體。第一步是選擇查詢的實體類別,然後選擇要具體查詢的實體。例如,如果我們要查詢安卡拉城市實體的文本知識圖譜實體和圖像實體,可以在下拉選擇器中選擇對應的安卡拉城市標籤。之後出現的頁面中上半部分是安卡拉的文本知識圖譜實體,下半部分是安卡拉的圖像實體。

其次,我們可以通過Richpedia的在線訪問平臺查詢圖像實體之間的視覺語義關係。選擇查詢文本知識圖譜實體後,點擊對應的圖像實體,可以查看圖像實體的視覺語義關係。例如,當我們想查詢一個與北京動物園圖像實體具有rpo:sameAs關係的圖像實體時,我們可以點擊相應的北京動物園圖像實體,得到相應的結果。

圖12.Tutorial界面

f) Ontology:提供了Ontology的相關信息。

圖13.Ontology界面

g) Resource:提供了對所有圖片資源的訪問地址。

h) Github鏈接以及頁面底端:提供了friendly link,聯繫人郵箱,Github主頁以及分享協議。

四、多模態知識圖譜應用

多模態知識圖譜的應用場景十分廣泛,首先一個完備的多模態知識圖譜會極大地幫助現有自然語言處理和計算機視覺等領域的發展,同時對於跨領域的融合研究也會有極大的幫助,多模態結構數據雖然在底層表徵上是異構的,但是相同實體的不同模態數據在高層語義上是統一的,所以多種模態數據的融合有利於推進語言表示等模型的發展,對於在語義層級構建多種模態下統一的語言表示模型提出數據支持。其次多模態知識圖譜技術可以服務於各種下游領域,例如多模態實體鏈接技術可以融合多種模態下的相同實體,可以廣泛應用於新聞閱讀,時事推薦,明星同款等場景中如圖14,多模態知識圖譜補全技術可以通過遠程監督補全多模態知識圖譜,完善現有的多模態知識圖譜,利用動態更新技術使其更加的完備,多模態對話系統的應用就更加的廣泛,現階段電商領域中集成圖像和文本的多模態對話系統的研究蒸蒸日上,多模態對話系統對於電商推薦,商品問答領域的進步有着重大的推進作用。

圖14.多模態知識圖譜在視覺實體鏈接中的應用

多模態知識圖譜是一個新興領域,受益於近些年通訊技術的發展,多模態數據越來越成爲人們生活中觸手可及的信息,種種多模態技術也成爲當下研究的熱門方向。

參考文獻

[1] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[M]//The semantic web. Springer, Berlin, Heidelberg, 2007: 722-735.

[2] Vrandečić D, Krötzsch M. Wikidata: a free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10): 78-85.

[3] Ferrada S, Bustos B, Hogan A. IMGpedia: a linked dataset with content-based analysis of Wikimedia images[C]//International Semantic Web Conference. Springer, Cham, 2017: 84-93.

[4] Liu Y, Li H, Garcia-Duran A, et al. MMKG: multi-modal knowledge graphs[C]//European Semantic Web Conference. Springer, Cham, 2019: 459-474.

[5] Wang M, Qi G, Wang H F, et al. Richpedia: A Comprehensive Multi-modal Knowledge Graph[C]//Joint International Semantic Technology Conference. Springer, Cham, 2019: 130-145.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章