視聽融合綜述(三)Audiovisual Fusion: Challenges and New Approaches

分享一篇視聽融合研究綜述,2015年發表在Proceedings of the IEEE上。該期刊創刊於1913年,是IEEE最古老的雜誌之一。主要刊登一些綜述和科學前沿的調查研究(review, survey, and tutorial)不刊載具體的研究成果。本文回顧了至2015年在視聽融合方面的研究成果,並討論了該領域的主要挑戰,重點是兩種模態的不同步以及訓練和測試的問題。

題目:Audiovisual Fusion: Challenges and New Approaches

Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653.

發表時間:2015

作者單位:Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA

權威期刊:Proceedings of the IEEE 原文鏈接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7194741


本文內容是該綜述的5、6兩節,主要內容爲視聽融合技術最近的研究進展和方法。

▍目錄 ▍


▍5.最近的進展和方法 ▍

在上一節中確定了我們選擇關注的主要AV融合挑戰之後,在本節中,我們首先回顧一下有關解決異步和動態加權挑戰的最新文獻。

第一個挑戰的性質特定於所考慮的兩種方式:語音和視頻。 然而,解決該問題所描述的方法也可以應用於處理其他形式的異步性。

另一方面,動態加權挑戰在某種意義上是通用的,也就是說,它適用於任何融合應用。 隨後,我們介紹了兩種最新技術,即深度和多視圖學習,它們對視聽融合具有當前和未來的影響。 儘管利用這兩種技術進行視音頻融合的工作量有限,但是它們已經表現出更高的性能,並且在原則上能夠應對未標記,嘈雜,丟失和/或衝突的數據的挑戰。


▶ A.異步 ◀

AV預期異步是一種自然發生的語言現象,其中語音段的可見姿勢(主要是嘴脣手勢)先於該段的其他發音成分出現,因此在聽到相應的音素之前就可以看到可見手勢。一個常見的例子是在“school”一詞中看到的預舍入。在仍生成/ k /(甚至/ s /)的同時,嘴脣開始爲/ uw /聲音變圓。這種現象被稱爲先行性協同發音anticipatory coarticulation。保存聯動Preservatory coarticulation是一種類似的效果,但不是一個手勢提前開始,而是一個手勢繼續。儘管英語中的先行性協同發音更爲普遍,但不同語言間共發音模態的範圍和方向也有所不同[117],[118]

至少從1930年代開始就研究了先行性協同發音,這種假設是假設協同發音發生是因爲節段segments 可能對於發音方法缺乏特定固有規範[119]。 1966年,亨克(Henke)提出了英語停止語+元音序列發音English stop + vowel sequences的計算模型,其假設是句段不一定總是具有完整的發音目標,因此易於產生髮音效果[120]。這項工作以其預期預先發音的“超前”機制而聞名,它提出,一旦停止接觸,停止就會向前看其他發音器的元音目標,例如“學校”中的脣部倒圓。在語音識別文獻中,Bregler和Konig [121]指出,平均而言,過去120毫秒內聲學特徵與視覺特徵最大相關。 Benoit在心理實驗中也有報道[122]。對於視聽生物識別技術,Aleksic和Katsaggelos [22]將這些異步影響作爲主要的開放性問題之一。

AV處理中的許多問題之一是缺乏足夠的語料來進行系統開發[123]。 好的數據庫是研究計劃的重要組成部分,並且必須包含人們試圖建模的現象。 GRID語料庫[124]包含許多語言環境,在其中人們可能會發現AV異步,併成爲[114]中工作的主要數據庫。 爲了幫助標記和分析任務,[113]開發了一個AV數據顯示(AVDDisplay)工具,該工具提供了用於人工註釋和顯示以及自動生成的比對和識別假設的顯示和操作的界面。 使用AVDDisplay收集了人類標記的數據,並用於建立ground truth[113],[114]。

在分析人類標記數據時,得出的結論是,交叉註釋者的同步特徵非常一致[114]。總體異步數據符合我們的語言期望,即數據應偏向早期視頻發作。每次出現時的異步量直方圖,用視頻標記減去音頻標記來表示,如圖3所示。該直方圖位於同步和早期視頻(20毫秒)之間的邊界附近,並且明顯偏向早期視頻。 Fig. 3.所有單詞的真實數據中異步分佈的直方圖(視頻標記/音頻標記)。紅線表示早期音頻,同步和早期視頻案例之間的邊界[114]。

當前,在AV語音建模中對異步建模的典型方法是耦合HMM(CHMM)[125],其中每個模態的狀態轉換取決於另一個模態的狀態(另一種方法也由異步多流HMM表示) 。在CHMM中,通常只允許在每個音素/語音的範圍內進行異步,而觀察到的異步性通常會跨越多個音素範圍。相反,Saenko和Livescu [112]和Saenko等人的異步動態貝葉斯網絡模型[126]允許一個單詞內多個音素/語音之間的異步,但不考慮AV異步典型的不對稱性。

Terry [114]開發了一種異步模型,該模型可以在跨越多個音素/語音時,對預期的協同發音進行顯式建模。 此外,由於語音通常看起來與零星的異步突發同步,因此可以假定,AV語音系統將從以不同方式對這兩種狀態(同步和異步)進行建模中受益。 基於這樣的假設:處於異步狀態的AV語音將趨於恢復到同步狀態,因此可以假設,每種模態的狀態轉換將基於異步量而有所不同。 爲了對此建模,引入了異步相關的狀態轉換。 在這個新模型中,每個模態的狀態轉換都取決於當前的異步程度和模態的當前狀態。

[114]中的模型基於[11]中使用的字同步word-synchronous DBN,並添加了基於[112],[126]的同步控制機制。該模型還從CHMM [125]中得到啓發,它允許狀態轉換依賴於變量,而不僅僅是當前模態的狀態。但是,在這種情況下,依賴關係取決於瞬時異步而不是狀態本身,這減少了參數的數量。在[112]和[126]中,異步量被定義爲流的狀態索引之間的差的絕對值。 [114]中的工作降低了絕對值,這增加了模型中的參數數量,但允許更正確地對音頻超前和音頻滯後之間的差異進行建模。該異步模型是在訓練期間學習的。除了異步模型本身之外,還添加了一個額外的參數,即異步模型權重,以控制異步模型的相對重要性。

具有異步相關轉換asynchrony-dependent transitions的模型稱爲“ ADT”模型,具有標準轉換和異步機制的模型稱爲狀態差異state differences或“ SD”模型。因此,除了AV流stream權重之外,這些模型還有三個主要的調整參數:音頻滯後狀態的最大數量,視頻滯後狀態的最大數量以及異步模型的加權。圖4將SD和ADT模型顯示爲DBN。爲了清楚起見,狀態和音素/語音等級變量已摺疊到圖中的單個節點中。此外,還有一些常見的元素,例如發音變體和流權重未顯示。藍色的節點和邊緣代表音頻形式,而紅色的節點和邊緣代表視頻。灰色節點和邊緣表示異步模型及其到AV模態的鏈接。無邊界的節點是確定性的和隱藏的,而具有實心圓形邊界的節點是確定性的和可觀察的。虛線矩形邊框表示隱藏的隨機節點,虛線圓形邊框表示觀察到的隨機節點。觀察到的音頻和視頻輸入節點具有以其各自狀態爲條件的高斯混合分佈。

圖4.用於訓練/對齊的單詞同步SD和ADT模型。

 

兩個模型的所有變量都相同,虛線邊緣在SD模型中被排除,而在ADT模型中被包括在內。爲了清楚起見,簡化了圖表,並以未顯示的單詞級變量爲條件[114]。

•AV狀態索引(ASI,VSI):相對於最近單詞邊界的當前狀態索引,用於確定當前音素/語音和測量異步性。

•AV狀態(A,V):當前的AV音素/視位和子音素/視位狀態。

•AV狀態轉換(AST,VST):一個二進制變量,指示是否已發生AV狀態轉換。對於SD模型,分佈僅以AV狀態爲條件,而對於ADT模型,分佈以AV狀態和異步模型(AM,如下所述)的值爲條件。這些分佈是在培訓期間學習的。如果發生狀態轉換,則在字轉換的情況下,下一個時刻的狀態索引將增加或重置爲零。

•AV觀測(AO,VO):聲學和視覺特徵向量,根據特定於狀態的高斯混合模型分佈。

•異步模型(AM):異步的瞬時程度(音頻和視頻狀態索引之間的差異)。它在一組允許的異步值上的概率質量函數表示給定數量的音頻或視頻滯後狀態的概率。

•異步強制(AE):具有觀測值的二進制變量始終等於一個變量,該變量通過確保ASI(t)-VSI(t) =AM(t)來強制執行異步約束,其中t表示時間。如[126]所述,此變量對於解碼不是必需的,但對於用標準EM訓練異步模型分佈則是必需的。

[114]中的AV語音建模系統是使用GRID [124]語料庫在強制對齊任務的上下文中進行評估的。已經發現/ uw /和/ r /的狀態轉換概率具有相似的特徵,並且正如預期的那樣,轉換的概率根據異步狀態而有很大的不同。對於音頻落後於視頻的情況,在音頻趕上音頻(即異步狀態返回到同步狀態)之前,視頻不太可能過渡。同樣,當視頻滯後時,視頻很可能會在趕上音頻並恢復同步後進行過渡。

關於在[114]中使用的數據的分區,從GRID語料庫中選擇了十個說話者:說話者2、3、4、10、15、18、19、20、22、24。這些說話者被選擇用於更多內容。強調中性,並易於跟蹤以提取視覺特徵。話語歸納爲三套互斥的套件,一套用於訓練,一套用於開發,另一套用於測試。對於每個說話者,從1000個總髮音中隨機選擇700個作爲訓練集,隨機選擇100個用於發展,其餘200個放在一邊進行測試。因此,訓練集,開發集和測試集的總大小分別爲7000、1000和2000。

除了AV強制對齊之外,ADT系統還用於語音識別。結果發現,整體單詞識別率的提高很小,但是有趣的是,第一個單詞識別率有了很大的提高。


▶ B.動態加權 ◀

衆所周知,在存在噪聲的情況下,自動語音識別(ASR)系統的性能會大大降低。因此,在描述或觀測級別自然會出現語音分類的AV模態加權問題。分配給每個模態的權重應與其執行分類的可靠性相關。例如,在具有理想AV信號的安靜環境中,應將更大的權重分配給音頻流,這反映了這樣的事實:在識別語音時,音頻模態比視頻模態更可靠。通常,當其中一種模態降級時(例如,由於音頻通道中的背景噪聲或視覺信號中說話者的嘴巴被遮擋),分配給它的重要性應該降低並反映出在這種情況下我們對此模態的置信度。現在讓我們研究一下文獻中如何解決音頻和視頻信號在各種情況下的貢獻的加權問題。應當記住,除了權重之和等於1以外,還必須對權重施加更嚴格的約束[133]。權重通常根據保留的數據進行調整(例如[112]和[113])。有趣的是,在訓練過程中使用的隱式權重與測試時施加的權重之間常常會出現不匹配的情況。 [113]報告說,他們的系統的最佳性能是通過分別調整訓練和測試權重來實現的。 關於權重的最早且引用最多的論文之一是Potamianos和Graf [134]。作者利用同步AV特徵用最大肅然分別訓練了具有相同拓撲的純音頻和純視頻單流HMM。通過組合兩個單流HMM獲得兩流HMM。然後引入每個流的對數似然的權重指數。他們使用最小分類誤差判別準則來估計該指數。但是,也可以使用其他標準。例如,參見[135]使用最大互信息來執行相同的任務,[136]使用最大熵原理。

Potamianos和Graf的方法被許多研究人員採用。例如,Garg [137]也使用MSHMM,他們提出了觀測中包含的類別信息的兩個可靠性指標,然後針對AV流計算它們。指數exponents建模爲四個可靠性指標的S形加權函數。使用訓練數據標籤的最大條件似然來計算與每個指標相關的權重。

基於[138]和[137]中引入的方法,並利用相同的模型,Marcheret等人[139]集中研究特徵選擇以獲取AV流的可靠性reliability,以及基於此類特徵的權重估計。他們像以前的工作一樣考慮了似然likelihood,並且還分析了基於聲學信號的特徵。爲了估計權重,使用了S形函數,並提出了高斯混合模型(GMM)估計的兩個變體。

Gurban等人遵循的方法[140]還基於找到流可靠性的估計量並將其動態映射到流權重。作者直接從每個分類器估計流置信度。如果在後部分佈中出現一個清晰的峯值,則該流可靠。否則,歧義性很強,且模態不可靠。它使用熵來衡量流的可靠性。提出了幾種從熵到權重的映射。Lee and Park [141]討論並比較了模態可靠性的不同定義。Rajavel和Sathidevi[142]提出了一種基於遺傳算法的可靠性測度,最終權重與聲學和視覺HMM輸出的可靠性測度成比例。他們描述了一種基於神經網絡的融合方法,該方法使用了兩種模態的可靠性指標,並在各種噪聲條件下產生了魯棒性識別性能。

特里等[143]提出了一種基於提取的視頻特徵而不是視頻序列本身的視頻可靠性度量video reliability metric。這些特徵是從乾淨的數據clean data中提取的,並通過帶有內存的矢量量化器發送,以便在訓練過程中估算給定音頻狀態的視頻狀態的條件概率質量函數(PMF)。此條件PMF與音頻流可靠性指標(例如音頻信噪比(SNR)一起用於確定任何給定時間的AV流權重。

在多說話人環境中,爲了使系統對聲學噪聲具有魯棒性,Shao和Barker [144]使用基於AV似然分量的加權組合的得分替換了狀態似然,並且允許權重隨幀而變化。加權過程使用人工神經網絡(ANN)從完整似然數據中學習SNR。SNR在Estellers等人的工作中也用作可靠性度量[145]。他們提出了一種動態方案,其中權重是從流可靠性的瞬時度量中得出的。作者提出了對音頻流的置信度度量,並研究瞭如何將其映射到權重,以便在嘈雜的訓練數據集中獲得最小的單詞錯誤率。

當將CHMM用於AV ASR時,已經採用了各種確定流權重的方法。例如,Nefian等[146]修改了每個觀測條件似然的概率來處理不同級別噪聲。通過實驗獲得分配給每個模態的權重,以使特定聲學SNR級別的平均識別率最大化。Abdelaziz和Kolossa研究了帶有CHMM的多層感知器的使用[109]。最後,Addelaziz等[147]使用EM算法來估計CHMM上下文中的動態流權重。

Terry和Katsaggelos[11]提出了一種使用DBN的AV自動語音識別的新模型。流權重直接合併到圖形模型中,音素/音素模型轉換爲音素/視位素模型。對該系統進行了評估,並與最近提出的利用帶噪聲音頻的大詞彙量連續語音識別(LVCSR)任務的系統進行了比較。通過使用視位素更準確地對視覺流進行建模,系統可提供更高的識別率。Heckmann等人對AV信號提供的信息進行整合。[138]在後驗概率水平,使用所謂的獨立積分模型。他們分析了不同的加權方案,並且在無噪聲環境下使用ANN/HMM學習了它們的係數(另請參見[148])。


▶ C.深度學習 ◀

深度學習(DL)的定義是[149]:“一類機器學習技術,它利用非線性信息處理的許多層來進行有監督或無監督的特徵提取和轉換,以及模態分析和分類。”它位於神經網絡,人工智能,圖形建模,優化,模態識別和信號處理的交叉領域。人類信息處理機制(例如視覺和聽覺)表明需要深度架構來提取複雜的結構並從豐富的感官輸入中構建內部表示。 DL在許多研究領域中表現出了非常好的性能,例如對象識別,計算機視覺,信息檢索,語言建模和自然語言處理[149]。它也已用於多峯融合[150] – [153]和AV融合中的表示學習[115]。 Ngiam等人[115]介紹了三種主要的深度表示學習方法,我們在本文中也採用了以下三種方法:

•多峯融合學習multimodal fusion learning;

•跨模態學習cross-modality learning;

•共享表示學習shared-representation learning。

這三種學習方法都包括以下三個階段:1)無監督的深度特徵學習; 2)監督訓練;和3)測試。深度網絡已應用於無監督特徵學習,即該網絡用作音頻和視頻特徵提取器;然後,在所有這三種學習方法的訓練和測試階段中都將使用由此產生的功能。接下來,我們根據上述三種學習方法來回顧文獻。


1)多模態融合學習

在多模態融合學習環境中,與大多數多模態工作一樣,這些模態在所有三個階段都可用。一種選擇是分別針對音頻和視頻流訓練深度神經網絡。然後,訓練後的模型的輸出,即提取的特徵,可以用作數據的新表示。另一種選擇是在連接在一起的音頻和視頻數據上訓練模型[參見圖5(a)]。第三種選擇是在每種模態的預訓練層上貪婪地訓練深度模型。在AV語音識別中,從兩個單獨的AV輸入模型獲得的輸出可以分別非正式地視爲音素和視位素。然後將輸出提供給另一層,以對模態之間的關係建模[見圖5(b)]。該模型是由DL建模中的堆疊思想stacking idea激發的。

圖5.用於特徵學習的網絡架構([115])。 a)連接音頻和視頻矢量並採用單個輸入網絡。(b)兩路輸入網絡,具有音頻和視頻流的單獨輸入。

幾位研究人員在AV融合中採用了這種策略。 Ngiam等人[115]的工作爲語音分類提供了一個例子。他們使用受限的Boltzmann機器(RBMs1)[154]進行特徵學習,並研究了許多學習架構。他們爲音頻和視頻訓練單獨的RBM,爲連接的音頻和視頻特徵訓練一個淺RBM模型[見圖5(a)],以及雙峯深度置信網絡(DeBN2)模型[見圖5(b)]。

在另一篇著作中,金等人[155]使用了一些DeBN模型,類似於Ngiam等人介紹的模型,[115]用於情緒檢測任務。他們測試在提供模態到輸入層之前或從輸出層獲得特徵之後執行的幾種特徵選擇技術。他們還研究了通過在DeBN的最後一層添加節點數較少的新層來減少特徵的效果。與基準系統相比,可以獲得更好的性能,尤其是對於未完全達成協議的非原型數據。 Noda等 [116]也提出了一種利用兩種不同模型從音頻和視頻中提取抗噪特徵的抗噪AV ASR系統。它們分別採用深度降噪自動編碼器和卷積神經網絡(CNN)編碼器來表示AV特徵。具有各種強度的人造高斯噪聲被添加到音頻特徵(即MFCC和對數梅爾卡爾濾波器濾波器LMFB),以產生嘈雜的特徵。利用乾淨的這些特徵來訓練深度降噪自動編碼器。爲了學習視頻表示,對CNN進行視覺特徵訓練,即來自嘴巴區域的像素作爲輸入,而音素標籤作爲輸出。自動編碼器和CNN的輸出使用MSHMM建模。該系統遭受MSHMM中音頻和視頻流的靜態權重的影響。另外,應該爲每個演講者訓練一個獨立的CNN。然而,他們展示了他們的方法在使用DL技術爲音頻和視頻提供抗噪魯棒性表示中的有效性。

在Huang和Kingsbury[156]的另一篇著作中,視音頻輸入被提供給兩個獨立的DeBN。從兩個DeBN獲得的輸出已通過兩種方式加以利用,例如:1)得分以估計後驗概率;然後將這些分數進行積分,並用作HMM的狀態後驗概率; 2)中層代表;兩個DeBN的輸出被串聯並提供給第三個DeBN,然後用作常規GMM-HMM系統的輸入。AV連續數字識別是他們實驗中使用的任務。結果表明,與傳統的GMM/HMM系統相比,它們的兩個基於DeBN的系統在嘈雜的環境中表現更好,但在乾淨的條件下卻不然。


2)跨模態學習 Cross-Modality Learning

與多模態融合學習相比,使用這種方法,在訓練和測試中只能呈現一種模態。當來自其他模態的未標記數據可用於訓練深度網絡進行特徵學習但在接下來的兩個階段中不可用時,此技術很有用。在[115]中提出的深度自動編碼器使用了一種跨模態學習方法。最初,以所有模態訓練DeBN [與圖5(b)相同的結構]。然後,在測試期間將與可用模態相對應的層的輸出提供給兩個網絡,例如RBM,以重構兩種模態。訓練後,深度編碼器中間層的輸出可用作新的特徵表示。通過發現模態之間的相關性,該深度編碼器可以僅使用模態之一來重構其他模態(參見圖6(a))。在如果有視頻可用而沒有音頻的情況下,Ngiam等[115]在訓練和測試階段可以更好地表示視頻。


3)共享表示學習 Shared-Representation Learning

跨模態學習的問題在於,對於具有多種模態的情況,需要訓練的模型數量呈指數增長。爲了解決這個問題,在[115]中使用人工噪聲數據提出了一個完整的雙峯深度自動編碼器。受深度降噪自動編碼器的激勵,將一種模態設置爲零的示例添加到訓練數據中。這樣,學習的模型將對丟失的模態具有魯棒性,並且可以在監督的學習和測試階段中利用模態的不同組合[參見圖6(b)]。

這是有關DL方法的一些說明。

•多模態融合學習方法是使用最廣泛的深度AV融合方法。此方法可以使用各種深度網絡體系結構,這提供了根據當前任務和可用資源進行適應的可能性。但是,應仔細選擇特定的體系結構。例如,由於原始音頻和視頻數據之間的相關性是高度非線性的,因此網絡很難從級聯特徵中學習這些相關性,圖5(b),而無需使用足夠深的網絡。

•多模態融合學習方法的主要問題在於,所有模態都應在以下三個階段中都可用:特徵學習,訓練和測試。當然,這並非總是可能的。另一方面,目前可以獲取大量未標記的數據。擁有一種將這些數據用於特徵學習的方法將是非常微不足道的。這可以通過交叉模態和共享表示學習來完成。 •多模態學習與多任務學習的概念緊密相關,多任務學習是一種使用共享表示來學習同時解決多個相關問題的機器學習方法[149]。學習領域或任務跨越幾種模態。多任務學習通常應用於沒有或只有很少訓練數據可用於目標任務域的條件。顯然,多任務學習自然符合DL的範式,在該範式下,跨任務的共享表示和統計強度(例如,涉及音頻和視頻的單獨模態的那些)和共享強度預計將極大地促進資源少或資源少的許多機器學習場景。

•儘管在許多基於DL的AV融合技術中,使用了RBM,DeBN和CNN,但根據任務和資源,也可以採用其他模型變體。例如,Shah等人[157]提出了一種多模態情緒識別框架,該框架使用了基於能量的RBM變體,稱爲複製的softmax模型(RSM)。以面部表情,語音和語言作爲源數據測試了情感識別方法的有效性。


▶ D.多視圖學習Multiview Learning ◀

多模態任務(例如語音處理)是多視圖學習領域技術的自然應用。多視圖學習是一組利用視圖之間的關係(此處是音頻和視頻)來學習比分別從每個視圖或從兩個視圖的簡單串聯中學習的更好的模型的技術。即使在測試時只有兩個視圖之一可用,多視圖學習技術通常也會生成可以使用的模型。此屬性非常有用,因爲有可能收集AV訓練數據,而在測試時只能訪問音頻或視頻。其中一個視圖可能會完全丟失,或者可能被噪聲嚴重破壞,因此希望能夠優雅地處理這種情況。

多視圖學習技術在AV語音處理中的應用仍處於起步階段,大多數工作集中在小型數據集和簡單任務上。在本節中,我們將回顧迄今爲止在該類別中所做的工作,以及一些自然的擴展,這些擴展可能是將來工作的豐碩成果。


1)協同訓練Cotraining

協同訓練[158]是多視圖學習的一種經典技術,這是一種半監督的方法,用於學習一對分類器,每個視圖一個。在協同訓練中,有少量“種子”標籤數據seed labeled data(用於學習初始的一對分類器)和大量未標籤數據。然後,這兩個分類器交替出現:1)標記最有信心的未標記數據點; 2)重新訓練分類器。其動機是利用多個視圖來標記未標記的數據,從而有效地增加訓練數據的數量並提高性能。

Christoudias等人[159]開發了一種與協同訓練有關的方法,稱爲共適應dubbed coadaptation。在這種方法中,使用初始的一對分類器來標記來自新說話者或域的數據,並且最可靠的標記將保留下來並用作應用協同訓練的種子集。他們將這個想法應用於訓練AV Viseme分類器,在這種情況下可以訓練新說話者的模型而無需花費很長時間進行註釋。儘管在單個域或場景中幾乎沒有標記數據但大量未標記數據可用的情況下使用了協同訓練,但對於從某個域(例如一組說話者或環境條件)可獲得足夠的標記數據的情況下,協作是有益的,但沒有針對新域或場景(例如新演講者)的帶標籤數據。


2)多視圖特徵學習Multiview Feature Learning

通過利用視圖之間的關係,多視圖學習還可以用於學習更好的表示或特徵。在AV語音處理的情況下,當然可以使用標準聲學特徵和圖像特徵的任何組合。但是,可能可以改善這些標準特徵。用於特徵學習的多視圖技術通常利用以下事實:兩個視圖中的噪聲源(或更常見的是,討厭的參數)是獨立的或至少是不相關的。例如,聲學視圖可以包括背景噪聲,而視頻可以包括照明變化。因此,通過尋找在某種意義上說兩個視圖共有的特徵,多視圖特徵學習技術可以消除或減少這種噪聲。此外,如果可以在真正的公共特徵空間中表示音頻和視頻視圖,則可以直接比較聲音和視覺信號,以進行跨模態檢索或在一種模態上進行訓練並在另一種模態上進行測試。

一種用於多視圖特徵學習的典型方法是使用規範相關分析canonical correlation analysis(CCA)來學習每個視圖的轉換[160],[161]。特別是,CCA會找到一對投影,每個視圖一對,從而使投影特徵儘可能地高度相關。理論結果(例如[162])表明,CCA投影可以改善某些條件下的類別分離,例如兩種視圖中不相關的噪聲。在[162]中,通過將來自AV語音記錄的音頻或視頻幀聚集到說話人羣集中,實驗證明了這一點。他們發現,基於CCA的聚類功能大大提高了說話人的聚類質量,並且與原始聲學或視覺空間中的聚類相比,它對噪聲的魯棒性更高。 Livescu和Stoehr [163]利用了相同的CCA投影特徵來提高說話者對噪聲的識別能力。通過結合視覺(嘴脣)特徵,音頻特徵和通過CCA發現的相關音頻-嘴脣特徵,AV說話人識別在[164],[165]中得到了改進。通過使用CCA,他們還可以找到最佳的時間偏移,以使音頻和視頻相互同步,這也有助於提高識別性能。

CCA已通過內核[166]和深度神經網絡[167]擴展到非線性投影的情況,但是據我們所知,非線性CCA尚未用於AV語音處理。另一方面,近來已經開發了具有其他目的的非線性特徵學習方法,並將其用於AV語音,通常是使用深度網絡。例如,正如已經提到的,Nagim等人提出了改進的音頻/視頻表示 [115]使用具有各種結構的深層自動編碼器,它們學會同時從兩個輸入端或單獨從視頻中重構出音頻和視頻,並使用學到的表示對僅給定視頻或音頻和視頻的給定的語音數字/字母進行分類,如上一節。他們發現學習的表示比原始特徵和單模態自動編碼器要好。另外,通過將CCA應用於學習的音頻/視頻自動編碼器的隱藏層,它們可以獲得進一步的改進。另外,他們能夠學習聯合表示,以便他們使用一種模態數據訓練分類器,並使用另一種模態數據對其進行測試 [115]中的結果使用結構相似的深玻爾茲曼機器在[168]中得到了進一步改善。與自動編碼器不同,深層的Boltzmann機器學習一種生成模型,該模型可以從缺少的模態中顯式生成數據。


3)測量視聽異步

使用跨模態相關性cross-modal correlation的想法已經超越了多視圖特徵學習的範疇,被應用於檢測和測量AV同步或異步。例如,在[169]和[170]中,音頻和視頻信號之間的相關/規範canonical相關被用作AV同步的量度。在[7]中使用了類似的措施(最成功的是像素方向的高斯互信息)來在視頻中定位說話者並識別成對的活躍說話者。在[171]中,音頻和視頻信號通過經過訓練的單層感知器進行映射,以最大化其輸出之間的相互信息,並使用得到的映射來定位說話者,並在出現多個同時發言者的情況下增強所需說話者的語音 。


▍6.CONCLUSION ▍

在總結本文時,我們總結了對AV融合的看法以及可能大發展走向。在對最近的出版物進行分析之後,可能會認爲該研究領域在最近的發展方面並沒有取得太大進展。這並不意味着發佈的工作結果沒有價值,但是儘管主要思想已經非常成功,但似乎在最初獲得成功之後並沒有那麼多追求。除了在解決本文中遇到的一些挑戰(即流加權和異步)方面取得了成功的工作,就很難很好地建模可靠性和正確處理異步而言,這些主題上仍有很多工作要做。對於AV(結構化SVM,CRF等)並沒有太多判別式結構化建模,並且我們期望用於異步的各種圖形模型應該從中受益。

DL無疑將提高其音視頻融合性能,就像它在其他每個領域所涉及的一樣。它僅開始用於視聽,但已經獲得的初步結果令人鼓舞。另一個可能的未來變化是,多模態工作可能開始變得與具體模態無關。 DL在某些領域發揮了這種作用,在這些領域中,基本領域特定的工作已被可從輸入信號中學習的深度網絡所代替。這並不意味着不需要該領域知識,只是在這種趨勢下,多模態應用將開始較少關注特定的模態。

AV speech的多視圖學習正在成爲一種有前途的方法。最近的工作纔剛剛開始利用多視圖技術。如上所述,某些技術,例如非線性CCA,尚未應用於此領域的問題。此外,除了上述非常初步的工作之外,還有很多空間來探索使用多視圖技術來處理AV噪聲。我們認爲,多視圖學習實際上還不是開創性的,並且我們希望它將成爲未來研究的一個非常豐碩的領域。

如前所述,儘管存在許多AV數據庫,但它們中可能沒有一個具有所有所需的特性,例如足夠的數據量,實際可變性,標準實驗設置和評估措施。這限制了該領域的進步。也許通過更好地利用“in the wild”中存在的數據(例如YouTube),可以幫助社區處理現實的嘈雜數據。由於大多數這些數據都是未標記的,因此深度學習和多視圖學習可能是有效的。使用DL,可以以無監督的方式學習數據表示,而無需手工設計新功能集。通過協同訓練,可以對分類器最有信心的未標記數據進行標記。

最後,可以得出結論,有人可能會認爲AV融合是一個非常特殊的領域,但使它特別的一件事是,那裏有如此多的AV數據,例如YouTube視頻,而不是其他多模態數據。它們將爲我們共同設想的視聽融合的蓬勃發展和發展做出貢獻。


該綜述剩餘部分放在《視聽融合綜述(一)(三)》兩篇博文內,感興趣的朋友可以關注我的博客,或知乎主頁:

https://www.zhihu.com/people/miao-xiao-di/activities

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章