多模態學習，帶來AI全新應用場景？

新的AI技術發展趨勢有哪些？多模態學習技術一定是其中之一。

最近，剛剛宣佈“自立門戶”的微軟AI明星產品小冰改名爲“紅棉小冰”。殊不知2014年誕生的這一個AI對話機器人已經在5年時間裏更新到了第七代了，據稱能力上正在“無限接近人類”。現在的小冰，不僅是那個會作詩的機器人了，她還會唱歌作曲、閱讀朗誦、撰寫新聞，甚至去年還辦了一個虛擬7位畫家的個人畫展。多模態識別技術正是小冰越來越像人一樣溝通表達的關鍵之一。

多模態技術同樣也在視頻網站、電商物流、自動駕駛等領域得到廣泛。像愛奇藝推出的“只看TA”功能，優酷視頻正在使用的視頻幀、人臉幀的圖向量檢索，都離不開多模態識別技術的支持。而像京東淘寶等電商平臺的“拍照購”、“拍立淘”的搜索技術背後也都是在計算機視覺技術下，使用了圖像、文本和高層語義屬性等多模態下的信息融合，才實現高精度的“以圖搜圖”功能。百度提出的“多模態深度語義理解”，則讓AI實現從“看清聽清”到“看懂聽懂”的進化。

可以說，人工智能在通向人的智能的道路上，多模態學習就是一個繞不開的發展方向。因爲人類本身就是一個多模態學習的典範。

現在，多模態學習技術正在帶來衆多全新的應用場景。關注AI技術和應用發展趨勢的你，想必也想了解下多模態學習的來龍去脈，以及在這些新應用場景中的技術現狀與問題。而這些問題也是本文重點探討的內容。

“多模態學習”，正式認識下

模態（Modality），雖然不是我們的日常用語，但卻十分容易理解。

我們每一天都會接觸到各種不同來源和形式的信息。正如我們有視覺、聽覺、嗅覺和觸覺等，那麼我們接觸的信息就有視頻、圖像、文字、語音、味道、軟硬度等，這每一種信息的形式就可以稱作一種模態。

模態的範圍要比我們的感知能力更寬泛。除了視覺、聽覺獲得的模態信息，我們也可以利用傳感器獲得諸如雷達、紅外線等不同感應數據的模態信息。

此外，模態的類型定義也可以非常寬泛，比如我們可以把兩種不同的語言當做是兩種模態，把不同結構下采集的數據，也可以當做兩種模態。比如，僅僅一個視頻內容數據，就是一個高維度、多模態的數據信息，其中包含了標題、簡介、評論、字幕等文本信息，也有視頻幀的圖像、聲音，以及連貫動作視頻片段的視覺、聲音信息。

多模態學習，從上世紀70年代就已經起步，幾經發展，現在正進入到機器學習特別是深度學習的階段。通常稱爲多模態機器學習（Multi-Modal Machine Learning ，MMML），試圖通過機器學習的方法實現對多源模態信息進行分析和理解。當前主要熱門的研究方向自然是對圖像、視頻、音頻、語義之間的多模態學習。

當前，多模態學習主要研究方向有多模態表示學習、模態間映射，多模態對齊、融合、協同學習等。

多模態表示學習，研究如何將多個模態數據所蘊含的語義信息數值化爲實值向量，通俗理解就是對多個模態的數據進行相關性編碼，讓不同模態建立起映射關係。按多模態表示共享的方式，主要分爲公共表示學習和特異性表示學習，後者由於是分別學習不同模態的特徵，可以應用於諸如零次學習、模態間映射、跨模態檢索等任務中。

模態間映射，研究如何將某一特定模態數據中的信息映射至另一模態。例如，給定一幅圖像，通過機器學習得到這副圖像的描述，或者給定一段文字，生成一幅匹配的圖像。類似於我們學習中遇到的“看圖說話”和“以題作畫”的問題。模態間映射早已可以應用於語音合成、圖像視頻描述以及跨模態檢索等應用中。

此外，多模態對齊，主要研究如何識別不同模態之間的部件、元素的對應關係，以促進學習到的多模態表示更加精確，例如將電影畫面、口型、語音、字幕的自動對齊；多模態融合，主要致力於不同模態間的模型與特徵的整合，以獲得更全面的特徵，提高模型魯棒性，並且保證模型在某些模態缺失時仍能有效工作；而多模態協同學習，主要考慮如何從信息豐富模態上學習的知識遷移到信息匱乏的模態，使各個模態的學習互相輔助。典型的方法包括多模態的零樣本學習、領域自適應等。

近兩年，隨着機器學習的模型的飛速進展，多模態學習中出現的映射質量問題、對齊的匹配度量以及融合噪聲干擾等問題，都在實現很好的優化解決，爲多模態的落地應用做好了準備。

多模態學習，正在豐富哪些應用場景？

通過以上解釋可以知道，其實很多我們熟知的AI技術都可以歸類到模態學習當中。比如，像機器翻譯，通過輸入的一種A語言即時翻譯爲另一種B語言，其實質就是一種模態之間的映射轉化。類似的還有脣讀識別和語音翻譯，也就是分別將脣部視覺和語音信息轉換爲文本信息。

在圖像識別中，會應用到一種“圖片語義分割”，即嘗試給圖片的不同像素區域對應到每一種類型標籤，實現視覺和詞彙的對應。這就是多模態對齊在空間維度的應用。

當然，基於多模態數據的豐富表示以及映射、對齊和融合的應用，可以將目前AI的三種主要感知模態——語音交互、機器視覺、傳感器智能進行多模態組合，產生全新的應用場景。

在語音交互上，“多模態深度語義理解”技術正在爲其帶來更深度的應用場景。

對於前幾年的智能音箱，我們都有這樣的感觸，那就是語音交互只能完成簡單的搜索，一旦多聊幾句，就發現機器人要麼只有萬能的“套路”公式，要麼就“答非所問”。這一問題的根源就是人工智能無法更好的理解對話者的深層涵義，也沒有靈活的應答機制和內容。此外，也更難理解人的語氣、情緒這類情感模態信息，當然因爲沒有視覺感知，更不可能去理解人的表情、動作、姿態等信息。

多模態深度語義理解可以極大改善這類語音交互的語義理解難題。比如，其中一個應用場景是智能汽車的數字座艙，正在從原本單一的車載語音識別，實現融合視覺、語音、車內外場景圖像的多模態識別的轉變。

在實際的語音交互中，車載智能助手不僅可以實現語音的識別，也可以通過攝像頭識別人的表情神態、動作，比如識別疲勞駕駛、分心、發熱等狀況，以進行即時的語音提醒。語音交互也可以更加以人類的自然語言進行交互，而不必要使用生硬的指令型語言。

而在以機器視覺爲主的應用中，多模態學習技術也帶來新的應用可能。

以電商平臺購物爲例，用戶的一大痛點就是看到一些“心水”的好物或者同款，但不知道名字，通過拍照識別和檢索，將爲用戶提供最便捷的推薦服務。另外，在電商的智能客服，用戶也希望能夠通過簡單對話或者發送圖片、視頻的方式處理訂單問題。在這些場景中，跨模態檢索和映射轉化技術就得到了深度應用。

比如，在商品推薦和信息流廣告中，就需要結合海量商品圖像與對應的商品語義屬性，學習圖像語義特徵表達，以提高符合用戶需求的商品推薦度。而與智能客服進行的多輪對話中，融入視覺到語言的跨模態轉換技術，可以自動實現對用戶上傳的圖片或視頻進行自動應答。

在傳感器智能上，多模態識別技術可以應用到大量的物聯網設備場景中。通過在大量的智能設備中增加視覺、溫度、溼度和光線傳感器，來實現多模態的智能交互。比如在智能空調中，加入語音交互、視覺識別指令，結合傳感器判斷屋內溫度和溼度，可以根據屋內人數、位置等因素來實現更精準的控溫方案。而現在更多智能大屏應用，也在將機器視覺、語音交互和一些智能傳感器引入到智能硬件中，實現對屋內光線的調節、音量、觀看者狀態（離得是否太近，是否有未成年人）等因素的智能識別和調節。

而近期，華爲推出的一款針對辦公場景的智慧屏幕，可以根據視頻會議中的發言對象進行視角跟蹤，將攝像頭跟蹤、焦點人物識別和身份識別結合起來。

正如開始列舉的，多模態學習技術更主要的應用還是集中在語音和視覺的多模態識別上。在愛奇藝的“只看TA”的功能中，除了人臉識別要區分是真人還是卡通人物，還要對人體信息，甚至還有微表情、身體語言等識別，多模態技術成爲視頻場景中不可缺少的技術支撐。而在未來的聊天機器人或者智能助手上，多模態學習將幫助智能機器人綜合處理圖像、聲音和文字信息，同時可以進行綜合模態，甚至包括情感等特徵信息的輸出與表達。

技術尚在中途，未來仍需努力

不過，我們仍然需要指出的是，儘管多模態學習技術已經有諸多的應用場景，但其技術實現仍然有諸多不足，也會有一些場景仍然是“僞多模態”的技術應用狀態，導致一些場景體驗仍然不能“盡如人意”。

現在的多模態技術的結合多爲“松耦合”狀態，各個模態可以一起工作，但耦合之下還不夠十分緊密。也就是現在更多實現的是兩種模態信息的轉化和融合。而一旦多種模態數據增加，耦合也會增多，衝突也就會增加，產生各種噪聲。比如，對於聊天機器人，如何在回覆的聲音、文本中增加情感特徵，就是一件非常困難的事情。因此，我們遇到的一批智能機器人都很容易是冷冰冰的客服腔調，以致於我們確實不好識別對方是真人還是機器人。

多模態技術主要還是採用已標註的多模態數據來生成深度學習模型，這導致這些模型在真實場景下的泛化能力受到很大限制。現有的多模態技術更多要與知識圖譜結合，融入專家、常識等知識，利用數據和知識的聯合來讓多模態技術建立其“智能”的作用。

此外，正如一位專家指出的，當前的多模態技術還是屬於狹隘的單任務學習，整個訓練和測試的過程都是在封閉和靜態的環境下進行，這就和真實世界中開放動態的應用場景存在一定的差異性。這距離人類在真實場景中的泛化的多模態感知相距甚遠。

未來爲提高多模態的泛化感知能力，可以利用元學習的方式來讓模型自己學會如何認知新的多模態知識，實現適用於開放動態場景並具備終生學習能力的多模態模型。

而在推動AI的推理能力上，在多模態模型訓練的過程中，可以引入自監督、自學習的推理性任務，“強迫”多模態模型進行推理和思考，這也能在一定程度上讓機器去慢慢學會推理。

通過多模態學習技術實現AI的推理，看起來難度極大，這一假設還需要未來更多實驗和驗證。

總的來說，多模態技術已經在試圖“複製”人類在日常生活中的各類場景，儘可能把人類的感知信息進行分析處理和整合，並實現更全面綜合的理解，也能結合“數據”和“知識”給出相應的迴應。但這距離真正的人類級別的智能還有質的差別。

當然，人們對多模態技術的發展前景仍然看好，相比於只側重單一模態的技術，多模態技術所構建的智能應用場景將更多樣化，也與我們普通人期待的智能生活更近一些。

更何況，多模態技術仍處在“襁褓狀態”，我們應該留給它足夠長的成長時間，等待美好發生。

多模態學習，帶來AI全新應用場景？

鴻蒙生態的2021：像犀牛在叢林飛

谷歌被反壟斷訴訟後，美國互聯網會再度繁榮嗎？

Vokenization：一種比GPT-3更有常識的視覺語言模型

屏讀時代，我們患上了注意力缺失候羣症

芯片破壁者（十八）：CPU戰爭三十年

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結