視聽融合綜述(一)Audiovisual Fusion: Challenges and New Approaches

分享一篇視聽融合研究綜述,2015年發表在Proceedings of the IEEE上。該期刊創刊於1913年,是IEEE最古老的雜誌之一。主要刊登一些綜述和科學前沿的調查研究(review, survey, and tutorial)不刊載具體的研究成果。本文回顧了至2015年在視聽融合方面的研究成果,並討論了該領域的主要挑戰,重點是兩種模態的不同步以及訓練和測試的問題。

題目:Audiovisual Fusion: Challenges and New Approaches

Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653.

發表時間:2015

作者單位:Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA

權威期刊:Proceedings of the IEEE

原文鏈接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7194741


本文內容是該綜述的1、2兩節,主要內容爲特徵提取和早中晚期三種融合方法。

目錄


▍摘要 ▍

AV融合中的一個重要問題是模態如何相互作用和相互影響。本文將在AV語音處理(尤其是語音識別)的背景下解決此問題,其中一個問題是模態既相互作用,又有時彼此不同步。有時會出現的另一個問題是,儘管在訓練時可用,但測試時可能會丟失其中一種模態。我們將從多視圖學習領域multiview learning回顧解決該問題的方法,該目標是在利用豐富的多模態培訓數據的同時分別學習每種模態的模型或表示。


▍1.INTRODUCTION ▍

【先說多模態的含義和特性】 多模態集成是對多種模態提供的信息的協同使用,以協助系統完成任務。多模態融合是指整合過程中的任何階段,其實際上是不同信息源的組合。 Multimodal fusion refers to any stage in the integration process

當數據提供冗餘和互補redundant and complementary information信息時,數據的集成和融合是有意義的。它可以減少總體不確定性,從而有助於提高系統感知特徵的準確性。在某些來源出現錯誤或故障時,冗餘還可以用來提高可靠性。來自多種模態的互補信息允許感知環境中僅使用單獨運行的每個個體模態的信息無法感知的特徵。由於每個模態的實際運行速度或作爲集成過程的一部分可能實現的處理並行性,也可以通過多種模態提供更及時的信息。

【特別地關注視聽分析】 AV分析是多模態分析的一種特殊情況,其中輸入源是音頻和視頻。 兩種方式相關聯並傳達互補信息。例如,面部可見度有利於語音感知。在研究關節運動與聲道形狀和語音聲學之間的關係方面,已有大量工作。研究還表明,臉部運動,聲道形狀和語音聲學之間存在很強的相關性。語音產生和感知是雙峯的。 McGurk效應已經證明了AV信息在感知語音中的雙峯整

【phonemes&visemes這段講音素和視位素】 音素phoneme是描述語音如何傳達語言信息的基本單位。 類似地,在視音頻語音處理和人類感知文獻[5],[6]中使用的基本視覺上可區分的單元是視位素viseme。 音素捕捉了發音的方式,而視位素捕捉了發音的位置[5],[7]。 儘管對某些音素羣進行了很好的定義,但關於將音素精確地分組爲視位素尚無普遍共識。

【AV應用場景,研究方向,典型參考文獻】 音頻和視頻融合在一起的應用程序很多,例如語音識別[8] – [15],說話者識別[16],[17],生物特徵驗證[18] – [23],事件檢測[ 24],概念檢測[25] – [27],人或物體跟蹤[28] – [35],主動說話者定位和跟蹤[7],[36] – [40],音樂內容分析[41],會議 細分[42],情感識別[43]-[45],獨白檢測[46],視頻檢索[47],人機交互[48],[49],新聞視頻中的故事細分[50],視頻拍攝檢測[51],語音活動檢測(VAD)[52]和源分離[53]-[55]。顯然,在某些應用中,不僅可以使用視覺發音器,還可以使用面部表情甚至整個身體的發音器。 類似地,在某些應用中,音頻(不僅僅是語音信號)與視頻信號融合在一起。

【In this paper本文工作和貢獻】 在本文中,我們介紹了主要概念並回顧了具有挑戰性的AV信息融合問題的最新工作。有很多關於該主題的評論文章(即[10],[22]和[56]-[64]),我們的意圖是在這些文章停下來的地方繼續我們的評論。

我們提出了在融合這兩種模態時遇到的一些挑戰,在其他模態融合問題中也遇到了其中的一些挑戰。我們討論並比較了應對此類挑戰的不同方法,併爲該領域和該領域的未來研究方向提供了重要的觀點。我們要解決的這些挑戰中的一些挑戰是每種模態在不同環境條件下的有效性,換句話說,視音頻系統對每種模態的質量,可靠性和置信度的適應性。 the adaptivity of the AV system to the quality, reliability, and confidence of each modality

我們還解決了音頻和視頻流之間的異步問題,包括不同的感應率以及語音和音頻線索之間的自然異步。我們還將回顧該領域的最新進展和方法。特別是,我們專注於將深度視圖和多視圖學習用於AV信息融合。

本文的結構如下。在第二部分中,我們描述了特徵提取步驟和融合類別。在第三部分中,我們討論了一些主要的融合技術,即支持向量機(SVM),動態貝葉斯網絡(DBN),隱馬爾可夫模型(HMM)和卡爾曼濾波器。 在第四節中,我們描述了融合音頻和視頻流的一些挑戰。在第五部分中,我們回顧瞭解決AV融合中的一些挑戰所採用的方法,並提出了針對它的兩種最新方法,即深度學習和多視圖學習。 我們在第六節中得出結論並提供有關該領域未來的評估。


▍2.視聽處理AUDIOVISUAL PROCESSING ▍

通常,視音頻分析包括兩個主要步驟 第一步,從每個模態中提取適當的特徵。 此步驟完全取決於所使用的模態類型以及應用。 在第II-A節中,我們概述了從這些模態中提取的針對不同應用的AV特徵。在第二步中,整合由模態傳達的信息。II-B節討論了各種融合方法的優缺點。

▶ A. Feature Extraction ◀

【一個簡明的音視頻特徵的概括】

在適當和有效的特徵空間中表示模態(即音頻和視頻)是融合之前的重要一步。

對於音頻源,有一些衆所周知的代表性功能已在語音和音頻研究社區中廣泛使用,例如基於頻譜的功能,例如梅爾頻率倒譜系數(MFCC)[65],[66]和線性預測編碼(LPC)[67],音素後部特徵[68]和韻律特徵[44]。

另一方面,從視頻源中找到合適的視覺特徵具有挑戰性[56]。在大多數視音頻應用中,視覺特徵是從身體的信息部分(例如嘴和眼區域)中提取的,但通常,它們取決於應用。

提取特定信息的方法也有所不同。例如,在AV語音識別中,雖然通常使用MFCC功能來表示語音[69],但已經考慮了多種方法來提取視覺特徵,這些視覺特徵可以分爲四類:基於圖像的,基於運動的,基於幾何和基於模型的特徵[70]。

AV特徵提取系統的一般表示如圖1所示。在大多數情況下,在提取視覺特徵之後會考慮降維步驟。爲了捕獲音頻和視頻流中的時間動態,從新功能中獲取了一階和二階導數(通過差異實現)。由於通常音頻和視頻流的速率不同,因此需要插值步驟以相同的速率表示它們。

儘管在大多數情況下,僅在特徵提取之後才組合有關模態的信息,但有趣的是,例如在[71]中所做的,在特徵提取過程中考慮此信息組合。 我們將在V-C部分中對此進行更多討論。

圖1 音視頻特徵提取系統


▶ B. Fusion Approaches ◀

【一種比較傳統的融合算法分類:早期、晚期、中間、混合融合】 融合可以在不同級別上執行。通過集成或組合來自所有模態的特徵,可以在建模過程之前完成特徵級別的融合;因此,它被稱爲早期整合[14]。

另一方面,在決策層,分別對每個模態進行建模,然後對模型的輸出或決策進行集成以生成最終決策[72],因此將其稱爲後期集成。

此外,還有另一種方法處於早期和晚期集成的中間,稱爲中間集成(在某些文獻中,它也被視爲早期集成)。 intermediate integration

也有可能通過在兩個級別上執行融合來組合這些融合方法中的兩種,稱爲混合方法[73]。 在下文中,將集中於它們的優點和缺點來更詳細地描述這些方法。(文中fusion和integration可能是一個意思)

圖2 早期融合和晚期融合

 

1)早期集成

早期集成方法的說明如圖2(a)所示。可以看出,首先從這兩種模態中提取了適當的特徵。 然後,在稱爲特徵集成的過程中,將提取的特徵組合爲一個特徵集。 例如,將輸入特徵向量堆疊爲單個向量是特徵整合的最簡單形式之一。集成的特徵向量將輸入到建模過程中,該過程將產生最終決策或輸出。

在早期集成中,模態之間的相關性可以在特徵級別上找到,並且只需要一個建模過程,與需要更多建模過程單元的其他融合技術相比,這將導致較低的成本和複雜性[57],[72] ]。但是,要使用相同的特徵空間類型,就需要轉換特徵向量並可能對其進行縮放。另一個問題是集成特徵向量的大小,這可能會導致在高維特徵空間中工作。它會使建模過程更困難,並降低系統的可伸縮性。一些技術,例如主成分分析(PCA)和線性判別分析(LDA)可用於解決此問題[57]。

此外,由於它們的傳感速率和處理時間不同,因此不同模態之間可能存在某種異步asynchrony[eɪ'sɪŋkrənɪ]。組合在一起的特徵向量應該來自同一時間,因此應考慮一些注意事項以解決此問題[57]。可能值得一提的是,雖然特徵集成是早期集成的最常見方式,但有時可以使用一種模態進行特定的初始化或準備,而其餘任務僅利用另一種模態來執行。例如,Barnard等[40],對於多個人類說話者的視覺跟蹤的應用,使用音頻源進行初始化以約束視覺面部檢測器的搜索空間。

2)中級集成Intermediate Integration

中級集成技術與早期集成技術非常相似[57]。通過這些方法,將音頻和視頻特徵共同提供給一個建模處理單元。主要區別在於,所利用的建模過程單元是專門爲處理多種模態而設計的。 它嘗試在考慮每個模態之間的交互時分別對它們進行建模。 與不能將特徵與不同模態區分開來的早期集成相比,中間方法會考慮它們之間的差異。

這使這些方法能夠處理模態之間的某種程度的異步,並在不同情況下爲它們考慮權重。 中間集成的主要困難是選擇建模技術的侷限性,因爲它們應專門針對中間集成過程進行設計[57]。

3)後期集成

後期集成方法的整個過程如圖2(b)所示。通過這種方法,對於每種模態,都採用了單獨的建模過程,該過程將一種模態的特徵作爲輸入併產生輸出決策。這些由決策整合單元進行整合以形成最終結果。此步驟中使用的最直接的技術是加權,求和和投票[57]。如[52]中所述,也可以使用更高級的機器學習算法,例如Adaboost [74]。

在後期集成中,建模過程的輸出具有相同的表示形式,並且與早期集成一樣,將它們組合起來比組合特徵向量更容易。此外,與早期集成技術相比,在決策級別更容易處理異步問題,並且該系統還可以通過模態數量進行擴展。這種方法的另一個優點是,對於每種模態,都可以使用適合該模態的特定技術。例如,在AV語音識別任務中,SVM代表視覺特徵的首選建模過程,而HMM則用於語音信號[57]。

後期集成的主要缺點是無法從特徵級別的模態關聯中受益。此外,由於需要爲每個模態進行單獨的建模,因此與早期集成相比,後期集成更具挑戰性。 【混合集成】 如上所述,每種類型的集成都有其優點和缺點。一些研究建議將這些方法結合起來以從兩者的優點中受益[57]。這種方法通常稱爲混合集成。這樣,既可以採用早期集成(可能是中間集成),也可以採用後期集成,然後使用決策集成單元將兩個系統的決策組合在一起,以生成最終決策。這樣,我們可以同時擁有早期和晚期集成的優勢。


▶ C.數據集 ◀

儘管有許多AV數據庫,但仍然非常需要爲AV應用程序生成適當的數據庫。現有數據集均不具有所有所需的特徵,例如足夠的數據大小,實際可變性realistic variability,標準實驗設置和評估措施。此外,尚無公認的標準評估方法,難以對不同特徵和融合方法進行比較[22],[57]。

文獻中已使用的一些可用AV數據集包括:

  • PETS [75](多峯分析任務,例如對象跟蹤)

  • AV16.3 [76](僅音頻,僅視頻以及AV說話認定位和跟蹤)

  • TRECVID [77](用於視頻檢索,語義視頻分析,視頻分段,概念檢測等不同應用)

  • BIOMET [78](包含面部,語音,指紋,手和簽名方式)

  • M2VTS [79](在生物特徵識別應用中使用的某些主題的數字音頻和視頻記錄)

  • XM2VTS [80](擴展的M2VTS)

  • VidTIMIT [81](人們引用TIMIT [82]語料庫的句子的視頻錄像)

  • DAVID [83],VALID [84],AVICAR [85](汽車環境中的AV語料庫)

  • BANCA [86](用於網絡和電子商務應用程序的生物訪問控制)和CUAVE [87]。


該綜述剩餘部分放在《視聽融合綜述(二)(三)》兩篇博文內,感興趣的朋友可以關注我的博客,或知乎主頁:

https://www.zhihu.com/people/miao-xiao-di/activities

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章