跨媒體分析與推理

國務院關於印發新一代人工智能發展規劃的通知：

1. 什麼是跨媒體分析與推理？

媒體在計算機領域有兩種含義：一是指媒介，即存儲信息的實體，如磁盤、光盤、磁帶、半導體存儲器等；二是指傳遞信息的載體，如數字、文字、聲音、圖形、圖像等。

以往的媒體信息處理模型往往只針對某種單一形式的媒體數據進行推理分析，比如圖像識別、語音識別、文本識別等。而越來越多的任務需要像人一樣能夠協同綜合處理多種形式(文本、音頻、視頻、圖像等)的信息，這就是跨媒體分析與推理。

跨媒體既表現爲包括網絡文本、圖像、音頻、視頻等複雜媒體對象混合並存，又表現爲各類媒體對象形成複雜的關聯關係和組織結構，還表現在具有不同模態的媒體對象跨越媒介或平臺高度交互融合。通過“跨媒體”能從各自的側面表達相同的語義信息，能比單一的媒體對象及其特定的模態更加全面地反映特定的內容信息。相同的內容信息跨越各類媒體對象交叉傳播與整合，只有對這些多模態媒體進行融合分析，才能儘可能全面、正確地理解這種跨媒體綜合體所蘊涵的內容信息。

跨媒體是一個比較廣義的概念，主要包括以下幾個研究範疇：

1）跨媒體檢索

用戶向計算機提交一種類型的多媒體對象作爲查詢例子，系統可以自動找到其他不同類型、在語義上相似的多媒體對象。雖然不同類型的多媒體對象之間沒有直接的可比性，如一幅山水畫和一段描述小河流水聲的音頻在底層內容特徵上彼此異構，但卻可以用機器學習、統計分析等方法學習二者在統計意義上潛在的相關性，並以此爲依據進行跨媒體檢索。

2）跨媒體推理

推理是指從一個命題合理演繹到另一個命題，跨媒體推理就是從一種類型的多媒體數據，經過問題求解，轉向另一種類型的多媒體數據。例如，OCR（Optical Character Recognition）技術是從圖像到文本的推理、基於內容的圖像檢索是從圖像到圖像的推理、視頻動畫技術是從視頻數據到動畫序列的演繹等。跨媒體推理囊括了對這些不同類型的多媒體數據之間的轉換的研究。

3）跨媒體存儲

現有處理海量數據的檢索技術主要針對的是文本信息，如谷歌和百度等搜索引擎，針對多媒體檢索的研究工作的出發點並不是針對跨媒體海量數據；跨媒體存儲研究高效壓縮、索引和分片等方法，以及對用戶行爲的個性化索引等技術，用於提高海量環境下的跨媒體檢索效率，以更好地支持上層應用。

上述三點，從底層數據存儲到上層應用技術的不同方面，描述了跨媒體思想對多媒體研究領域的技術涵蓋和突破性要求，是一個整體性的研究框架設計。要實現上述研究思路，需要在海量數據庫、多媒體索引、並行計算、機器學習和統計分析、計算機視覺，以及信息檢索等諸多領域取得突破性進展。

現有處理海量數據的檢索技術主要針對的是文本信息，如谷歌和百度等搜索引

應用場景： 網絡內容監管、輿情分析、信息檢索、智慧醫療、自動駕駛、智能穿戴設備等等。

1.1 跨媒體信息的統一表達

多媒體的數據結構性不高，一般地，基於內容的多媒體內容分析都是用底層特徵來表示的。不同類別媒體的特性完全不同，沒有可比性，媒體與媒體內容之間存在“鴻溝”。“跨媒體內容鴻溝”可定義爲：因不同類別的媒體數據分別使用不同維數、不同屬性的底層特徵進行表示，使不同類別的媒體之間無法直接根據特徵來計算其相關性，而造成的彼此之間的異構性和不可比性。

跨媒體信息由於形式不同，其底層特徵完全不同，所以一個基本的問題是：

針對跨媒體信息，如何學習一種統一的表達？

一種簡單的學習方法是：建立一個共享空間，然後將所有數據投影到該空間。比如早期的CCA方法，通過線性函數儘可能的將成對出現的圖像和文本數據投影到共享空間的同一位置，如圖 Fig.1。通過改進投影方式以及變換投影空間，CCA方法可以輕易擴展到多種媒體形式的聯合分析。

主題模型是另外一種常用的表示方法，比如經典的latent Dirichlet
allocation (LDA) 模型。 LDA假設不同形式的媒體信息由相同的多個主題生成，於是目標的相似度可以通過指定主題下的生成概率來計算。

深度學習的興起也很快蔓延到跨媒體信息表達領域。如利用深度學習改進特徵提取和度量方式：

如利用深度學習在拉近同類目標距離時拉遠不同類間距離：

但就目前的發展而言，離人們期待的實用還有較遠距離。

1.2 跨媒體信息的理解與深度挖掘

數據表達是基於內容的多媒體檢索實現相似度匹配的基本依據，在圖像檢索、音頻檢索等研究中，通常採用底層內容特徵來表示多媒體對象。而對跨媒體檢索而言，需要研究一種符合跨媒體特性的數據表達機制，建立統一的數據模型，以表達不同的多媒體對象；同時，構建的模型應能反映數據集之間的潛在關係。如果不同類別媒體的數據集被映射到一個統一的表達框架中，但破壞了數據集之間的相互關係，那麼在此基礎上得到的跨媒體檢索結果將受到影響，因此，在用統一的模型來表達不同類別的媒體數據時，應儘可能地發現和保持數據之間潛在的相關性。

不同類型的數據集之間實際上還存在一種共生關係，挖掘這種數據共生關係可以幫助發現潛在的語義結構。視覺特徵和聽覺特徵結構完全不同，然而在其底層特徵中潛在共生關係，可以從中找到隱含的語義結構。共生關係分析最初應用於語言分析，不過語言分析與跨媒體分析有很大的差別，主要在於跨媒體沒有包含直接的語義；另外，跨媒體中不包含文檔和詞彙（語義）的包含關係，因此，其對應的處理方法也不同。

目前的方法基本上都是在交叉媒體數據上進行相關性學習，學習方法主要包括表達學習、度量學習以及矩陣分解等，學習策略基本上採用batch的形式來捕獲目標之間的一階相關性。對於未來的發展，我們需要開發更高級的學習策略來捕獲更高階的相關性(比如，相同來源的信息天然具有一定相關性、信息中的超鏈接也隱藏着更多的相關性信息)並採用更合理的評價手段。

1.3 跨媒體知識圖譜構建以及學習方法論

跨媒體知識圖譜構建的目的是爲了提供基本的可計算的知識表達結構，從而在跨媒體環境中語義關係分析以及認知層級的推理。

關鍵問題：

跨媒體知識圖譜創建：實體提取以及關係構建
基於跨媒體知識圖譜的信息查詢與檢索
跨媒體知識圖譜中對的挖掘與推理
知識驅動的跨媒體學習模型

1.4 跨媒體知識演化與推理

目的：基於多種媒體形式進行演化與推理。

關鍵問題：

數據驅動結合知識引導的跨媒體知識學習
基於語義理解的跨媒體推理框架
永不停歇的知識獲取、挖掘以及演進

下圖，谷歌利用搜索模式來預測流感的傳播情況。

1.5 跨媒體描述與生成

實現跨媒體數據間的交叉翻譯，並使用自然語言描述符聯繫理解跨媒體數據。

關鍵問題：

針對文本、圖像、視頻等的跨媒體描述符
認知、情感、推理間的聯繫

下圖，看圖說話與視頻描述。

1.6 跨媒體智能引擎

搭建技術與應用之間的橋樑，構建跨媒體智能應用的統一計算平臺。

關鍵問題：

如何適應跨媒體數據的複雜特徵
如何處理通用以及特殊的任務需求
如何構建自動學習和演進的能力

下圖，IBM的智能問答系統。

1.6 跨媒體智能應用

如醫療數據的融合與推理，從而實現個性化精準醫療。

挑戰：跨媒體數據融合與推理能力不足；缺乏領域專家的監督；面對不同醫療模式時很差的自適應能力。

下圖，跨媒體健康護理信息分析。

參考資料：

楊毅. 跨媒體信息技術與應用[M]. 電子工業出版社, 2014.
Yu-xin, PENG, Wen-wu, et al. Cross-media analysis and reasoning: advances and directions[J]. Frontiers of Information Technology & Electronic Engineering, 2017, 18(1):44-57.

shuzfan 博客專家

發佈了137 篇原創文章 · 獲贊 876 · 訪問量 164萬+

私信關注

跨媒體分析與推理