視聽融合綜述(二)Audiovisual Fusion: Challenges and New Approaches

分享一篇視聽融合研究綜述,2015年發表在Proceedings of the IEEE上。該期刊創刊於1913年,是IEEE最古老的雜誌之一。主要刊登一些綜述和科學前沿的調查研究(review, survey, and tutorial)不刊載具體的研究成果。本文回顧了至2015年在視聽融合方面的研究成果,並討論了該領域的主要挑戰,重點是兩種模態的不同步以及訓練和測試的問題。

題目:Audiovisual Fusion: Challenges and New Approaches

Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653.

發表時間:2015

作者單位:Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA

權威期刊:Proceedings of the IEEE

原文鏈接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7194741


本文內容是該綜述的3、4兩節,主要內容爲四種融合技術和該任務面臨的難點和挑戰。

▍目錄 ▍


▍3.融合技術 FUSION TECHNIQUES ▍

已經有許多技術用於AV處理中的建模和融合步驟,例如SVM,圖形模型(例如DBN和HMM),神經網絡和估計算法(例如,卡爾曼濾波)。 通常,這些是建模技術,適用於視音頻系統的各個部分。 例如,它們可以用作建模過程單元中的一種技術(參見圖2)。 由於當前研究的重點是融合,因此我們不討論在系統其他部分中使用這些建模技術並僅關注集成單元的此類工作。在下文中,我們簡要介紹了一些AV應用中最常用的融合技術。

▶ A.支持向量機 ◀

SVM代表流行的建模技術,該技術已廣泛用於許多分類問題。在大多數利用SVM的視音頻工作中,它們已被用來獨立地對單個模態進行建模。但是,有些研究,特別是在後期集成中,已經使用SVM作爲融合技術來集成從系統其他組件獲得的決策。 例如,[26],[27]已經對視頻中的AV概念檢測進行了許多研究,其中分別對一些音頻,視覺和文本線索進行建模,併產生相應的分數。然後將獲得的分數連接起來以形成特徵向量,該特徵向量將作爲SVM的輸入以檢測語義概念。在其他應用程序(例如生物識別)中也使用了相同的想法。 Bredin和Chollet [19]結合了從三個組件獲得的分數,包括使用SVM作爲決策集成單元,集成面部識別系統,說話者驗證系統和同步(相關)估計模塊。


▶ B. 動態貝葉斯網絡Dynamic Bayesian Networks ◀

貝葉斯網絡是概率圖形模型,代表一組隨機變量及其條件相關性。 貝葉斯網絡的圖形表示是通過非循環有向圖完成的,其中頂點表示每個變量,兩個變量之間的條件依存關係由相應頂點之間的邊表示。 DBN是對觀測序列建模的貝葉斯網絡。 DBN及其變體廣泛用於視音頻應用中,尤其是在應考慮時間排序的地方,例如語音處理和視頻分析。

Noulas和Kroèse[88]建議在視頻分析應用程序中使用兩層DBN建模方法,以解決將線索分配給創建線索的人的問題。在第一層中,每個模態(在這種情況下爲音頻和視頻)都使用單獨的DBN獨立建模。在第二層中,另一個DBN用於對這兩種模態之間的交互進行建模。建議使用期望最大化(EM)來估計DBN的參數。

其他研究人員還建議使用多流DBN來對模態之間的交互進行建模。例如,Dielmann和Renals [42]使用自動會議分割系統來分析基於多流DBN的會議視頻。目標是將用多個麥克風和攝像機錄製的會議自動組織爲小組會議動作的序列,例如獨白,討論和演示。他們建議與多流DBN一起對AV線索進行建模,該DBN將低級功能與更復雜的羣體行爲相關聯。

在Bilmes和Bartels [89]給出的通用多流DBN模型結構中,在AV流中,每個單詞都由固定數量的狀態組成,並且每個狀態都與觀察向量相關聯。訓練參數的數量非常大,特別是對於大詞彙量語音識別的任務。爲了減少訓練參數,每個單詞都由其對應的音素序列組成,並且每個音素都與觀察向量相關聯。由於音素由所有單詞共享,因此訓練參數大大減少了(這被稱爲多流異步DBN(MS–ADBN)模型)。但是,該模型是單詞模型,其識別基本單位是單詞。

Lv等人基於MS–ADBN模型[90]在兩個流中的音素節點級別和觀察變量級別之間引入了額外的隱藏節點級別狀態,從而導致了多流多狀態異步DBN(MM-ADBN)模型。其中,每個音素都由固定數量的狀態組成,並且每個狀態都與觀察向量相關聯;除了單詞以外,還描述了音素的動態發音過程。

Terry和Katsaggelos [11]引入了對該模型的擴展。在[89]中,AV流是獨立建模的,每一個都由音素組成子字單元(稱爲音素/音素模型)。但是,AV語音不是由相同的子詞單元組成的。在多對多映射中,視覺語音單位(視位素)與音頻語音單位(音素)有關[91]。文獻[11]中的方法反映了這一點,並且將音頻流建模爲包含音素,而視頻流則包含視位(音素/語音模型)。

DBN已用於各種AV融合任務中,這些任務需要對它們的隨機變量之間的多重依賴性進行建模。 此外,他們可以有效地處理時間序列數據[92]。 這些優點使它們適用於許多多媒體分析任務。 DBN的主要缺點是難以確定其正確狀態[57],[93]。


▶ C.隱馬爾可夫模型 ◀

HMM可以看作是DBN的一種簡單形式,它表示觀察序列上的概率分佈。像DBN一樣,HMM已廣泛用於語音和視頻處理任務。在某些工作中,單個HMM被用來聯合建模AV功能,而不會在它們之間進行區分。這些工作可以歸類爲早期整合方法[51],[94]。例如,Wang等人使用了HMM[51]對從每幀中提取的AV特徵進行建模以執行視頻鏡頭檢測。相反,提出了HMM的幾種變體作爲中間集成技術,這些技術試圖分別對模態進行建模,同時考慮它們的交互作用。 多流HMM(MSHMM)使用兩個單獨的流進行音頻和視頻觀察。他們在每一幀都結合了這些觀察。解碼算法的複雜度在流的數量上是線性的[95]。該建模已廣泛用於AV語音識別應用程序[9],[12],[13]。在狀態異步HMM中[96],不是在每個幀上耦合觀察結果(可能太緊),而是將兩個標準HMM綁在模態的邊界上。以這種方式,可以保持模態之間的異步以及它們的對準。在HMM的另一個變體中,稱爲耦合隱馬爾可夫模型(CHMM)[97],並行流是使用併發HMM建模的,其中每個HMM狀態可以在異步區域內轉換,但應保持在模型邊界[98]。

CHMM和狀態異步HMM的主要問題在於,當使用兩個以上的流時,它們的精確訓練算法變得很棘手[95]。讀者可以參考[98],以獲得有關各種類型的HMM,其優缺點的完整說明。 除了DBN和HMM,其他類型的圖形模型,例如條件隨機字段(CRF)及其變體[99],也已用於多模態融合[100]。


▶ D.基於估計的方法 ◀

基於估計的多源融合技術包括Kalman和粒子濾波方法的變體[57]。 卡爾曼濾波是一種根據隨時間變化的噪聲觀測序列估計狀態空間模型的技術。 它能夠保留其先前狀態的歷史記錄而無需額外的內存。 卡爾曼濾波器代表具有加性高斯噪聲的一維線性系統的最佳估計量[101]。 稱爲擴展卡爾曼濾波器(EKF)[102]的卡爾曼濾波器的非線性版本用於建模非線性系統。

粒子濾波器用於根據一段時間內的一系列觀測結果對隨機動力學系統進行建模。這些方法也稱爲順序蒙特卡洛(SMC)方法[103]。雖然卡爾曼濾波器通常用於建模線性系統,而擴展卡爾曼濾波器可以用於非線性系統,但粒子濾波器更適合於非線性和非高斯模型,尤其是在樣本數量足夠大的情況下。

這些是目標定位,人員跟蹤以及數據融合中的流行技術。它們可以在特徵和決策級別上進行融合。例如,Loh等[39]結合了來自三個麥克風的音頻數據和來自一個攝像機的視頻數據來估計說話人的位置,然後使用卡爾曼濾波器來估計她/他的速度和加速度。

Gehring等[37]分別提供了來自不同相機的識別面部和不同麥克風之間的到達時間延遲(TDOA)作爲音頻和視頻功能,以提供給EKF來檢測活動說話人的位置。 Talantzis等人提出了一種分層的卡爾曼濾波器結構。 [30]使用多個麥克風和攝像頭來跟蹤3-D空間中的人物。首先,考慮用於音頻和視頻流的兩個單獨的本地卡爾曼濾波器。然後,使用一個全局卡爾曼濾波器對這兩個局部濾波器的輸出進行融合。 Kilic等[104]提出了一種整合音頻和視頻信息的新方法,以使用粒子濾波來跟蹤多個移動說話人。他們在傳播步驟中重塑了粒子的傳統高斯噪聲分佈,並在測量步驟中通過利用音頻信息和到達方向(DOA)角來對觀察模型進行加權。


 ▶ E.任務相關技術 ◀

其他AV融合技術針對特定應用,但通常沒有通用性。這些融合技術通常被認爲是中間方法。例如,Casanovas等[105]提出了一種基於稀疏表示的盲AV源分離方法。構建兩個字典來表示音頻和視頻模態的冗餘表示。擴展了使用兩個字典分別對音頻和視頻觀測進行建模的想法,“本地”信息通過使用獨特的AV詞典來開發,如[55]所示。

在他們的其他工作[106]中,提出了一種迭代視頻擴散技術,該技術可以檢測視頻中與所產生的聲音相關的區域。音頻和視覺模態之間的同步性度量被用來識別這些區域。提取的區域可用於多種AV應用程序,例如視頻中的音頻源定位。該技術也已被用來提取對象,以無人監督的方式在視頻中產生聲音[6]。

表1列出了涉及AV融合的應用程序總結。每個應用程序下的代表工作也都列出了。對於它們中的每一個,還顯示了所使用的AV功能以及實際的融合技術及其分類。這只是一份代表性的文件清單,絕不是詳盡無遺的。其他應用程序可以在[10],[22],[57]及其參考文獻中找到。


▍4.挑戰性 ▍

設計視音頻系統的一個重要問題是如何整合各種模態(在我們的示例中爲音頻和視頻)的知識,以利用每種模態的信息知識,同時又忽略每種模態的弊端。 在下文中,描述了該領域中的一些主要挑戰。

  • 每個模態在不同環境條件下的有效性是不一樣的。在某些情況下,系統應更多地依賴音頻,例如在黑暗的場景中,而在另一些情況下,則應更多地依賴視頻,例如在嘈雜的環境中。換句話說,系統應適應模態的質量,可靠性和置信度quality, reliability, and confidence。實現此目標的一般方法是在融合過程中考慮每個模態的權重。可以通過根據測試數據[101],[107]-[109]的質量不斷調整權重來在動態方案中進行加權,也可以通過僅基於訓練數據來計算一些恆定權重來在靜態方案中進行加權[46] ],[110],[111]。如果訓練和測試數據中的模態質量不同,則需要動態加權。儘管許多研究者[112],[113]已經解決了這個問題,但仍然需要解決在不同條件下估計合適權重的問題。

  • 處理不同類型的多種模態可能會導致許多同步問題。 AV融合中有兩種主要的異步類型。第一種類型源自音頻和視頻流之間的異步。例如,語音的視覺和聽覺跡象不一定完全同時發生。結果,在AV語音識別中,語音和視覺線索之間存在自然的異步,這被稱爲“保護性和預期性的協同發音” [114]。另一種類型與感測速率和不同模態的處理時間之間的差異有關。同樣,完成特定任務所需的數據量取決於應用程序;例如,與AV語音識別相比,用於AV事件檢測的數量更長。在實際應用中,異步處理是一個重要且至關重要的問題,應進行適當的研究和解決。

  • 如今,可獲取大量數據,而這些數據大多沒有標籤。標記數據的過程需要人工,這既費時又昂貴。有必要提供一種融合技術,該技術能夠從大量的未標記資源中受益。大多數傳統的AV技術都沒有考慮利用未標記的數據。然而,最近,研究人員[115],[116]已經在半監督甚至無監督的情況下進行視音頻處理。他們大多將多模態處理問題視爲多視圖學習問題,並提出了新的學習技術來解決諸如標籤丟失,視圖(模態)和半監督學習之類的問題。


     

 

該綜述剩餘部分放在《視聽融合綜述(一)(三)》兩篇博文內,感興趣的朋友可以關注我的博客,或知乎主頁:

https://www.zhihu.com/people/miao-xiao-di/activities

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章