基於FCBF特徵選擇和粒子羣優化的模糊ARTMAP神經網絡視聽情感識別翻譯

Audio-visual emotion recognition using FCBF feature selection method and particle swarm optimization for fuzzy ARTMAP neural networks

基於FCBF特徵選擇和粒子羣優化的模糊ARTMAP神經網絡視聽情感識別

摘要:人類使用面部、言語和身體手勢等多種方式來表達自己的情感。因此,使情感計算機和人機交互(Hci)更自然地和友好的。最後,計算機應該能夠利用語音和視覺信息來理解人類的感受。本文利用模糊ARTMAP神經網絡從音視頻信息中識別情感。 網絡(FAMNN)音頻和視覺系統融合在決策和特徵級別。最後,利用粒子羣優化算法確定了選擇參數(α)的最優值、警戒參數(ρ)和學習率(β)。實驗結果表明,特徵級和決策級融合改善了單峯系統的性能PSO IMP 追蹤識別率。採用粒子羣優化的FAMNN進行特徵級融合,對音頻系統的識別率提高了57%左右,對音頻系統的識別率提高了4.5%左右。 沒有視覺系統。利用優化後的FAMNN,對Savee數據庫的最終情感識別率達到98.25%。

關鍵詞:視聽情感識別;粒子羣優化,模糊ARTMAP神經網絡

FAMNN:模糊ARTMAP神經網絡

數據集:Savee數據庫

優化算法:粒子羣優化算法。

FCBF:快速相關濾波器(FCBF)

1 介紹

與計算機相比,人類之間的交流更加自然。人機交互(HCI)系統的主要問題之一是隱式信息的傳遞.到 讓HCI變得更加自然和友好,計算機必須像人類一樣享受理解人類情感狀態的能力

近年來,情感識別已經發現了許多應用,例如用於檢測壓力和疼痛的醫學緊急領域[15],與機器人的交互[27,41],計算機遊戲[26],以及開發。 平人機界面,幫助弱者和老人[36]。

有許多情態,如臉,身體姿態和言語,人們用來表達他們的感情。這些模式的組合取決於它們發生的地點和主體本身; 因此,有各種各樣的組合模式[30]。心理學和語言學的一些研究證實了情感表現與特定的視聽信號之間的關係[2,17]。 

Mehrabian[33]指出,在任何面對面的交流中,基本上都有三個要素。視覺通道中的面部表情和言語清晰度是最重要的情感線索。 (分別爲55%和38%),詞彙只佔整體印象的7%。

有一些方法可以量化和測量情緒,例如離散類別和維度des。 歸屬[40]。在這項工作中,我們使用了基本的離散情感類別,包括快樂、恐懼、悲傷、憤怒、驚訝、中立和厭惡,這些都植根於日常生活的語言中。此法 Ekman[16]的跨文化研究特別支持了這一觀點。現有的對情緒自動識別的研究大多集中在對這些基本情感的識別上。這些sev 情感狀態是常見的,並已被用於大多數以前的作品[5,7,14,21,30,31,37,38,46]。我們的方法是通用的,可以擴展到更多的情緒狀態。使用Univer Sal情緒模型,容易識別情緒狀態[49]。

文獻中採用的兩種主要融合方法是特徵級融合和決策級融合。本文的目的是通過結合情緒相關的i來模擬人類對情緒的感知。 來自面部表情和音頻的信息。因此,我們使用不同的方法融合音頻和面部表情信息。分類器類型對情緒識別率也有顯著影響。 通常不同的分類器有人工神經網絡(ANS)、支持向量機(SVMS)、決策樹、最近鄰(KNN)、高斯混合模型(GMMS)、隱馬爾可夫模型(HMM)等。 和貝葉斯網絡已經被用於情感識別。研究人員還提出了混合和多分類器方法[49]。這裏,我們使用模糊自適應共振理論映射。 [9]作爲分類器,採用粒子羣優化算法(PSO)確定了選擇參數(α)、警戒參數(ρ)和最優選擇參數(ρ)的最優值。 模糊ARTMAP神經網絡的學習速率(β)。

本文的其餘內容如下:第二節回顧了近年來在這一領域的研究進展。第三節介紹了我們解決這一問題的方法。在本節中,我們首先討論Abou。 在此工作中使用的Savee數據庫,然後是如何提取音頻和視頻特徵,以及特徵約簡和特徵選擇程序。另外,FAMNN也是自帶的。 作爲分類器,本文提出了粒子溫優化方法來優化FAMNN,提高分類精度。第四節爲實驗結果。在第五節,研究了粒子羣優化的FAMNN算法對情感識別性能的影響.最後,在第六節中得出結論。

2背景和相關工作

近年來,基於視聽的情感識別方法引起了研究界的關注。在對Pantic和Rothkrantz的調查[39]中,只有四項研究的重點是 視聽影響識別。此後,利用音像信息進行情感識別一直是衆多研究的課題。關於影響識別方法的最新調查 音頻、視覺和自發的表達屬於曾等人。[49]。本文簡要介紹了這一領域的一些主要工作。

De Silva和Pei chi[14]使用了一種基於規則的決策級別方法。 語音和視覺系統的融合。在語音中,提取基音作爲特徵,並將其應用於最近鄰分類方法中。在視頻中,他們用光流跟蹤面部點, 並將隱馬爾可夫模型(HMM)作爲分類器進行訓練。決策級融合提高了各個系統的融合效果。

宋等人[46]用三倍隱馬爾可夫模型(THMM)模擬被試感知到的三個信號的聯合動力學:(A)音高和能量作爲語音特徵;(B)眉毛運動,眼瞼運動。 d,臉頰作爲面部表情特徵,c)嘴脣和下巴作爲視覺語音信號。提出的THMM架構測試了七種基本情緒(驚訝、憤怒、喜悅、悲傷、厭惡、恐懼)。 ,其總體性能爲85%。

Mansoorizadeh和Moghaddam Charkari[30]比較了語音和人臉信息的特徵級和決策級融合。他們提出了一種改進t的異步特徵級融合方法。 他是結合的結果。在語音分析中,他們使用了與能量和基音輪廓相關的特徵。在人臉分析中,表示人臉區域幾何特徵的特徵爲u。 SED。多式聯運結果表明,與個別系統相比有了改進。

Hoch等人[24]發展了一種雙峯情感識別算法。他們將加權線性組合用於語音和面部表情系統的決策級融合。他們也應用 ED是一個包含840個音像樣本的數據庫,有7個揚聲器和3種情感。他們的系統對3種情緒(積極、消極和中性)進行了分類,平均識別率爲90.7%。通過使用fus 基於加權線性組合的離子模型與單峯情感識別相比,性能提高了近4%。

Paleari[38]提出了一種語義情感增強多媒體索引(Sammi),用於從非原型個體獨立的面部表情和聲樂韻律中提取實時情感評價。丁 用一種新的融合技術NNET對不同的概率融合方法進行了比較和評價。結果表明,nnet能使識別率提高19%左右,並能使Me提高19%左右。 與最佳單峯系統相比,平均精度約爲30%。

Haq和Jackson[21]在Savee數據庫中將特徵和決策級融合用於音像特徵。106語音級音頻特徵(基本頻率、能量、持續時間和觀衆) 該系統使用了240種視覺特徵(面部標記位置)。採用高斯分類器對不同層次的信息進行融合。他們使用主成分 分析(PCA)和線性判別分析(LDA)特徵選擇算法。運用主成分分析和LDA,情緒分類率分別爲92.9%和97.5%。據報道,音頻特徵爲50%和56%,視覺特徵爲91%和95.4%。

貝賈尼等人[5]研究了一種將語音特徵(MFCC、音調、能量和Formants)和麪部特徵(基於itmi和qim)結合起來的多分類器視聽系統,eNterface’05。多分類器系統的識別率比基於語音的系統提高了22.7%,比基於表情的系統提高了38%。

近年來,情感識別在更爲通用的媒介傳播中得到了廣泛的應用。Lopez-de-Ipina等人。[28]確定新技術和生物標記物或用於耳的特徵 阿爾茨海默病(AD)及其嚴重程度的Ly檢測。基於情感溫度和分形的自發語音情感反應自動分析(AAER)。 對試驗和生物標誌物進行驗證,以供今後的診斷使用。AAER在AD的早期診斷中顯示出非常有前途的特徵定義結果。Harley等人[22]目前 ED一種新的測量和同步情緒數據的方法(自動面部表情識別、自我報告、電真皮活動)及其對LEE的一致性 的情感。他們發現面部識別和自我報告數據之間有很高的一致性(75.6%),但它們與電真皮激活之間的一致性很低,暗示。 一種緊密耦合的關係並不總是存在於情緒反應成分之間。Weisgerber等人[47]精神分裂症患者的面部、聲樂情感識別能力測試 IC病人。戴等人[13]提出了一種在聲樂社交媒體上進行情緒識別的計算方法,用以估計複雜情緒及其在三維襯墊中的動態變化。 在-喚醒-支配)空間。他們分析了情感在聲樂社交網站微信上的傳播特徵。

近年來,研究者們致力於尋找可靠的信息特徵,並結合強大的分類器來提高現實生活中情感識別率。 意見書[37,44]。因此,發展分類優化設計方法是一個非常活躍的研究領域。在此,我們提出了一種粒子羣優化的fmn神經網絡,提高了情感識別的效果。 S與音頻、視覺和視聽系統相比較。

很明顯,情緒狀態會影響一個人的音像特徵。換句話說,音頻和視覺功能保存了有關情緒狀態的信息,這些情緒狀態協同地影響着人們的情緒。 識別過程。音頻和視覺信息的數據融合方法及序列處理(如特徵約簡、特徵選擇、分類和分類器優化)的應用 這是一種精心設計的研究方法。在本文中,我們對視聽情感識別系統的各種融合方法進行了研究,並對結果進行了分析,最後提出了最合適的融合方法。 這類系統的原始融合方法。爲了減少計算成本和使用最有效的特徵,對音視頻特徵採用了特徵約簡和特徵選擇算法。

3 (從事某一活動的)一套方法

在情感識別系統中,通過不同的特徵約簡和選擇方法以及分類器進行不同的音視頻信息融合。在這個設置中,音頻功能 (主頻倒譜系數(Mfcc)、音高、能量和音高)和視覺特徵(面部標記位置)被提取出來。採用PCA特徵約簡算法對特徵進行約簡。其次,將FCBF特徵選擇方法應用於約簡特徵。然後,FAMNN被用於音頻的各種設置。 所有的情感識別系統。最後,利用粒子羣算法對模糊神經網絡進行了優化,提高了實驗結果。

本工作的主要目的是量化音頻和視覺系統的性能,識別這些系統設置的優缺點,並將所獲得的設置與組合進行比較。 e提高系統績效的這兩種方式。

爲了將視覺和音頻信息結合起來,實現了兩種不同的方法:特徵級融合(使用一種模式特徵的單一分類器)和決策級別(決策級別)。 融合,它爲每個模態使用一個單獨的分類器,並使用疊加泛化方法將輸出組合在一起,其中集合的輸出作爲元-clas的特徵向量。 篩子。我們使用FAMNN作爲一個元輔助器來提高泛化性能。圖1顯示了擬議的識別系統的概述。

FAMNN 1顯示音頻情感識別的結果,FAMNN 2通過特徵約簡和選擇階段對視覺特徵進行分類。視聽功能也混合在一起 然後通過PCA和FCBF階段,然後將所選的特徵融合到FAMNN 3中。

將PCA-約簡音視頻特徵混合在一起,然後將FCBF特徵選擇應用於混合音視頻約簡特徵。所選擇的特徵在FAMNN 4中被用於情緒識別階段。FAMNN 5使用了所選的音頻和視覺特徵,並對情緒狀態進行了相應的分類。

FAMNN 1和FAMNN 2的輸出作爲FAM的特徵向量。 NN 6.本實驗是音頻和視覺系統的決策級融合。在下面,將詳細描述。

3.1 數據庫

我們使用薩里視聽表達情感(Savee)數據庫(http://personal.ee.surrey.ac.uk/Personal/P.Jackson/SAVEE/Database.html)這是從四個本地人那裏錄下來的

英國薩里大學CVSSP的3D視覺實驗室中,男性講英語的人(年齡從27歲到31歲)臉上塗着60個標記。圖2顯示了放置在fo上的面部標記的一些示例。 你的主題有着不同的情感。

這些句子被記錄在七種情緒狀態:憤怒、厭惡、恐懼、快樂、中立、悲傷和驚訝。錄音由15個音標組成。 每種情緒分別有3個常見的、2個特定的情緒和10個不同的泛型句子。在“中性e”中記錄了3種常見的和2種情緒的句子。 在數據庫中產生了30句中性情緒和480句語句。

在錄音過程中,在演員面前的監視器上顯示了情感和句子提示。3DMD動態人臉捕捉系統[1]提供彩色視頻和Beyer動態麥克風信號 一年中不同時期的幾個月。音頻採樣率爲44.1kHz,視頻採樣率爲60 fps。用一臺彩色攝像機記錄演員正面的二維視頻。

3.2特徵提取

3.2.1音頻功能

現有的音頻情感識別方法大多采用聲學特徵作爲分類輸入。流行的特徵是韻律特徵(例如,音高相關的特徵和能量相關的特徵)。 和光譜特徵(例如,MFCC和倒譜特徵)。因此,本工作採用音高、強度、MFCC和幀級的共振峯特徵進行音頻情感識別。由於 在相關著作[49]中,作者使用了這些特徵。使用漢寧窗口函數,每10 ms分析一次語音信號的5 ms幀。 [6]談普拉特語音處理軟件[6]。由於在框架級別上有大量的特徵,所以指定句子的特徵的統計值被用於訓練和測試。 S系統因此,使用Praat計算了音高的均值、標準差、最大和最小值以及能量。

此外,還使用PRAAT計算了MFCC。MFCC是語音識別領域中一種流行而有力的分析工具。在本工作中,我們將前12個係數作爲有用的特性。計算了MFCC特徵的均值、標準差、最大值和最小值,共得到48個MFCC特徵。

 

                                         圖2  薩維數據庫中存在不同情緒的面部標記:KL(憤怒)、JK(快樂)、JE(悲傷)和DC(中性)。 

共振峯頻率是聲道系統的特性。本文利用Praat計算了前三個共振峯頻率及其帶寬。平均標準差 計算了共振峯特徵的極大值和最小值,共得到24個共振峯特徵。總共從語音信號中提取了80個特徵,並將其用於情感識別。 cognition認識,認知。

3.2.2視覺特徵

視覺特徵是通過在演員的臉上畫60個正面標記來創造的。這些標記畫在額頭、眉毛、低垂的眼睛、臉頰、嘴脣和下巴上。數據捕獲後,標記符w 對序列的第一幀手動標記,並使用標記跟蹤器跟蹤其餘幀。對跟蹤標記的x和y座標進行了歸一化處理。每個標記的平均離散度 從鼻樑上減去。最後,從2D標記座標中得到480個視覺特徵,包括均值、標準差、最大值和最小值。 調整後的標記座標。

在以往的工作[7,20,21,27]中,面部標記被用於面部表情識別。這些特性的出色表現 人臉表情識別和關注其他任務(分類、優化和融合),我們使用它們。在實際應用中,人臉點的自動檢測和提取技術。 例如,主動外觀模型(AAM)已經被使用[12]。還有一些軟件,如LucandFaceSDK[29],提供了面部特徵點的座標。它允許跟蹤和識別人臉。 在現場錄像裏。

3.3特徵約簡

用於降維和構造較小的特徵空間,採用統計方法最大限度地保留了相關信息。這可以通過應用程序來完成。 G是線性變換,y=Tx,其中y是約簡特徵空間中的特徵向量,x是原始特徵向量,T是變換矩陣。PCA[45]被廣泛用於提取ES。 高維數據集的特徵和丟棄噪聲。PCA包括特徵中心化、白化、協方差計算和特徵分解。我們應用PCA作爲線性反式。 特徵約簡的形成技術。

3.4特徵選擇

本研究採用快速相關濾波(FCBF)[18]方法進行特徵選擇.該方法選擇了兩個弱相關的特徵,這些特徵分別是信息豐富的和兩個弱相關的。據指出,兩個向量X和Y,I(X,Y)的相互信息(MI)以下列方式計算它們的統計依賴性:

在FCBF方法中,Y是數據標籤的向量,XI是所有數據的ith特徵值的向量。也就是說,當特徵數爲N時,存在N1向量.FCBF選擇特性i n兩步:

 3.5 分類

本研究採用FAMNN作爲情感分類器。Carpenter等人介紹了自適應共振理論(ART)的理論基礎。[9]網絡有結構 針對二進制或模擬輸入向量的隨機順序,設計了增量監督學習識別類別和多維映射。它得到了模糊邏輯和模糊邏輯的綜合。 利用模糊方法的計算與藝術範疇的選擇、共振和學習之間的形式相似的d ART神經網絡。

 FAMNN已成功地應用於遙感、數據挖掘和模式識別等多項任務中。FAMNN在ARTMAP家族成員中被認爲是快速的,因爲Chea。 p輸入和輸出之間的映射。F

AMNN網絡有兩個模糊ART網絡,Arta和ARTB,通過一個聯想記憶模塊(圖3)通過一個幀間連接(圖3)。跨藝術模塊c 通過匹配跟蹤和自我調節機制,使網絡誤差最小化,泛化最大化。

模糊神經網絡的性能受到三個網絡參數的影響:

1-選擇參數α(α>0),它作用於類別選擇。

2-基線警戒參數ρ(ρa、ρb和ρab)(ρa) 控制網絡共振的∈[0,1]。警戒參數負責形成類別的數量。

3-控制網絡適應速度的學習速率(β∈[0,1])。 離子。表1顯示了本工作中模擬FAMNN的規格。

3.6 最佳化,最優化

如前所述,採用粒子羣算法確定了FAMNN參數的最優值。粒子羣算法於1995年由Kennedy和Eberhart首次提出[25]。該算法是一種進化技術。 它的靈感來源於鳥羣或魚羣的社會行爲,並模擬了羣中粒子的性質。圖4顯示了本質上這些模式的示例。粒子羣算法 算法提供了一種基於種羣的搜索過程,在該過程中,個體,稱爲粒子,隨時間改變其位置(狀態)。在PSO系統中,粒子在多維搜索器周圍飛行。 h空間。在飛行過程中,每個粒子根據自己的經驗和鄰近的粒子來調整自己的位置,利用自己和它的鄰居所遇到的最佳位置。在這裏 算法,每個粒子都有一個速度和一個位置如下[25]: 

PSO算法類似於進化計算(EC)技術,如遺傳算法(GA)。這些技術是基於羣體的隨機優化技術,並利用了一種適應度。 用於評估人口的函數。他們都更新人口和尋找最優的隨機技術。與EC和GA技術不同的是,粒子羣算法沒有諸如交叉sov這樣的遺傳算子。 呃和突變。粒子隨着內部速度的變化而更新。另外,粒子羣算法中的信息共享機制與其他EC算法相比也有很大的不同。在EC中 染色體彼此共享信息,因此,整個種羣就像一個羣體向一個最優區域移動。但是,在PSO中,只有best^粒子發出向他人提供信息。粒子羣算法是一種非常有效的求解實際值全局優化問題的算法,適合於大規模的研究。圖5顯示了PSO對一個部分的更新 從x(K)到x(K1)。

4 實驗

在Savee視聽情感數據庫上對視聽情感識別系統進行了測試.所有的實驗都是與人無關的。我們用了大約80%的數據來訓練這個班。 和其餘的20%來測試它們。情感識別通過單峯音頻、單峯視覺、決策級、特徵級融合進行。

圖6不同系統的情感識別精度。每一組相鄰列表示單個類的分類精度。第一組包含平均識別大鼠。 e.垂直軸的識別正確率爲:音頻、視覺、fl(特徵級融合)、fl-fr(特徵降階後特徵級融合)、ff-fs(特徵級特徵後融合)、決策級融合。類標籤是由前三個字母縮寫而成的。

4.1音頻實驗

在這些實驗中,80個音頻特徵被應用到PCA中進行特徵約簡;20個約簡特徵在下一階段應用於FCBF特徵選擇,12個特徵被用於FCBF特徵選擇。 被選中,利用FAMNN對七種情緒狀態進行了分類實驗。圖1使用FAMNN 1演示了這個設置。該分類器的總體性能爲53%。

爲了顯示我們的音頻識別系統的良好性能,我們用eNterface05數據庫[32]對其進行了測試。系統總體性能爲63.1%。結果比我們以前的結果要好。 Ork(55%)[5]。這表明了我們的音頻情感識別方法的良好性能。

4.2視覺實驗

在這些實驗中,480個人臉特徵被用於主成分分析以進行特徵約簡;30個約簡特徵用於下一階段的FCBF特徵選擇,6個特徵被用於下一階段的特徵選擇。 S被選中。利用FAMNN對七種情緒狀態進行了分類實驗。圖1使用FAMNN 2顯示此設置。該分類器的總體性能爲93.75%。 在某些狀態下(如快樂、中性和悲傷)的識別準確率爲100%。不幸的是,Savee數據庫是唯一使用面部標記的免費公共數據庫。所以我們不能 評估我們的視覺系統的性能。

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章