最新情感識別技術:深度信念網絡的語音情感識別方法及系統

一種深度信念網絡的語音情感識別方法及系統

技術領域

本系統涉及語音識別領域,特別是涉及一種深度信念網絡的語音情感識別方法及系統。

背景技術

隨着雲計算、移動互聯網、大數據的發展,機器爲人類服務愈加智能化,人與機器用自然語言進行對話的夢想逐步接近實現,人們對機器交互能力的要求也越來越高。簡單的語音內容的識別已經不能滿足人們的要求,處理、識別和理解語音中的情感在實際應用中已經變得尤爲重要。語言情感識別具有非常廣闊的應用前景,它不僅可以應用於人機交互系統,還可以用於語音識別,增強語音識別的魯棒性;或者用於說話人辨別,提高說話人辨別率。語音情感識別技術在智能人機交互、人機交互教學、得到廣泛的應用。自動語言情感識別的研究,不但能夠推動計算機技術的進一步發展,它也將大大提高了人們的工作和學習效率,提高人們的生活質量。

對外界各種情感信號進行採樣來識別各種情感,在深度神經網絡研究方面,對於情感分類的準確性低,在模式識別方面,採用現有技術中的基於神經網絡提取語音中的情感,對於悲傷、興奮、歡樂和憤怒情感的識別率較低,採用自適應神經網絡對語音情感狀態的識別率也較低。

採用傳統的神經網絡在訓練時,網絡各層是作爲整體一起訓練的,當面臨大數據情況時,就會增加網絡的訓練時間,使網絡的收斂速度變得更慢。反向傳播算法是神經網絡訓練中最常用到的方法,通過迭代的方法來訓練整個神經網絡,網絡參數採用隨機化的方式進行初始化,利用當前計算所獲得的網絡最頂層的輸出值和數據的實際值之差來調整網絡各層的參數,採用傳統的梯度下降法,更新參數的目標是使得網絡預測值與真實值更爲接近,但是,採用隨機初始化的方式來初始化網絡參數,會導致網絡更新時越往下誤差校正信號越弱,梯度也變得更加稀疏,從而網絡容易陷入局部最優。所以導致語音情感狀態的識別率低。

發明內容

本系統的目的是提供一種能夠提高語音情感識別率的深度信念網絡的語音情感識別方法及系統。

爲實現上述目的,本系統提供瞭如下方案:

一種深度信念網絡的語音情感識別方法,其特徵在於,所述識別方法包括:

獲取語音信號;

預處理所述語音信號,獲得預處理語音信號;

對所述預處理語音信號採用深度信念網絡進行無監督的語音信號特徵提取,獲得語音信號特徵;

將所述語音信號特徵採用支持向量機進行語音情感的識別分類,獲得語音情感識別結果。

可選的,所述對所述預處理語音信號採用深度信念網絡進行無監督的語音信號特徵提取,獲得語音信號特徵具體包括:

將低層至高層的N層限制玻爾茲曼機堆疊,獲得深度信念網絡;

根據所述預處理語音信號對第i層的限制玻爾茲曼機進行無監督訓練,獲得第i最優參數,所述第i最優參數爲所述第i層的限制玻爾茲曼機的最優參數;其中,i的取值依次爲1,2,......,N;

根據所述第i最優參數和所述預處理語音信號對第i+1層的限制玻爾茲曼機進行無監督訓練,獲得第i+1最優參數;

將所述多個最優參數利用全局訓練的方法微調至所述深度信念網絡收斂至全局最優,獲得多個微調最優參數;

根據所述微調最優參數提取所述預處理語音信號的語音信號特徵。

可選的,所述將所述語音信號特徵採用支持向量機進行語音情感的識別分類,獲得語音情感識別結果具體包括:

採用核函數將所述語音信號特徵的樣本點映射到高維特徵空間,獲得空間線性可分的樣本;

所述支持向量機根據所述空間線性可分的樣本對所述語音信號特徵進行邏輯判斷,獲得語音情感識別結果。

一種深度信念網絡的語音情感識別系統,所述識別系統包括:

語音信號獲取模塊,用於獲取語音信號;

語音信號預處理模塊,用於預處理所述語音信號,獲得預處理語音信號;

特徵提取模塊,用於對所述預處理語音信號採用深度信念網絡進行無監督的語音信號特徵提取,獲得語音信號特徵;

情感識別模塊,用於將所述語音信號特徵採用支持向量機進行語音情感的識別分類,獲得語音情感識別結果。

可選的,所述特徵提取模塊具體包括:

深度信念網絡建立單元,用於將低層至高層的N層限制玻爾茲曼機堆疊,獲得深度信念網絡;

監督訓練單元,用於根據所述預處理語音信號對第i層的限制玻爾茲曼機進行無監督訓練,獲得第i最優參數,所述第i最優參數爲所述第i層的限制玻爾茲曼機的最優參數;其中,i的取值依次爲1,2,......,N;根據所述第i最優參數和所述預處理語音信號對第i+1層的限制玻爾茲曼機進行無監督訓練,獲得第i+1最優參數;

參數微調單元,用於將所述多個最優參數利用全局訓練的方法微調至所述深度信念網絡收斂至全局最優,獲得多個微調最優參數;

語音信號特徵提取單元,用於根據所述微調最優參數提取所述預處理語音信號的語音信號特徵。

可選的,所述情感識別模塊具體包括:

核函數單元,用於採用核函數將所述語音信號特徵的樣本點映射到高維特徵空間,獲得空間線性可分的樣本;

邏輯判斷單元,用於所述支持向量機根據所述空間線性可分的樣本對所述語音信號特徵進行邏輯判斷,獲得語音情感識別結果。

根據本系統提供的具體實施例,本系統公開了以下技術效果:本系統公開了一種深度信念網絡的語音情感識別方法及系統。所述識別方法包括:獲取語音信號;預處理所述語音信號,獲得預處理語音信號;對所述預處理語音信號採用深度信念網絡進行無監督的語音信號特徵提取,獲得語音信號特徵;將所述語音信號特徵採用支持向量機進行語音情感的識別分類,獲得語音情感識別結果。採用所述深度信念網絡逐層訓練每個限制玻爾茲曼機的方式來達到訓練整個訓練整個所述深度信念網絡,利用基於所述深度信念網絡和所述限制玻爾茲曼機的多分類器模型,建立了一個語音情感識別的多分類器系統,提高了語音情感的識別率。

附圖說明

爲了更清楚地說明本系統實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本系統的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。

圖1爲本系統提供的深度信念網絡的語音情感識別方法的流程圖;

圖2爲本系統提供的深度信念網絡的語音情感識別系統的結構組成圖;

圖3爲本系統提供的基於支持向量機的情識別系統框圖。

具體實施方式

下面將結合本系統實施例中的附圖,對本系統實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本系統一部分實施例,而不是全部的實施例。基於本系統中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本系統保護的範圍。

本系統的目的是提供一種能夠提高語音情感識別率的深度信念網絡的語音情感識別方法及系統。

爲使本系統的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本系統作進一步詳細的說明。

如圖1所示,一種深度信念網絡的語音情感識別方法,其特徵在於,所述識別方法包括:

步驟100:獲取語音信號;

步驟200:預處理所述語音信號,獲得預處理語音信號;

步驟300:對所述預處理語音信號採用深度信念網絡進行無監督的語音信號特徵提取,獲得語音信號特徵;

步驟400:將所述語音信號特徵採用支持向量機進行語音情感的識別分類,獲得語音情感識別結果。

所述步驟300:對所述預處理語音信號採用深度信念網絡進行無監督的語音信號特徵提取,獲得語音信號特徵具體包括:

將低層至高層的N層限制玻爾茲曼機堆疊,獲得深度信念網絡;

根據所述預處理語音信號對第i層的限制玻爾茲曼機進行無監督訓練,獲得第i最優參數,所述第i最優參數爲所述第i層的限制玻爾茲曼機的最優參數;其中,i的取值依次爲1,2,......,N;

根據所述第i最優參數和所述預處理語音信號對第i+1層的限制玻爾茲曼機進行無監督訓練,獲得第i+1最優參數;

將所述多個最優參數利用全局訓練的方法微調至所述深度信念網絡收斂至全局最優,獲得多個微調最優參數;

根據所述微調最優參數提取所述預處理語音信號的語音信號特徵。

所述步驟400:將所述語音信號特徵採用支持向量機進行語音情感的識別分類,獲得語音情感識別結果具體包括:

採用核函數將所述語音信號特徵的樣本點映射到高維特徵空間,獲得空間線性可分的樣本;

所述支持向量機根據所述空間線性可分的樣本對所述語音信號特徵進行邏輯判斷,獲得語音情感識別結果。

如圖2所示,一種深度信念網絡的語音情感識別系統,所述識別系統包括:

語音信號獲取模塊1,用於獲取語音信號;

語音信號預處理模塊2,用於預處理所述語音信號,獲得預處理語音信號;

特徵提取模塊3,用於對所述預處理語音信號採用深度信念網絡進行無監督的語音信號特徵提取,獲得語音信號特徵;

情感識別模塊4,用於將所述語音信號特徵採用支持向量機進行語音情感的識別分類,獲得語音情感識別結果。

所述特徵提取模塊3具體包括:

深度信念網絡建立單元,用於將低層至高層的N層限制玻爾茲曼機堆疊,獲得深度信念網絡;

監督訓練單元,用於根據所述預處理語音信號對第i層的限制玻爾茲曼機進行無監督訓練,獲得第i最優參數,所述第i最優參數爲所述第i層的限制玻爾茲曼機的最優參數;其中,i的取值依次爲1,2,......,N;根據所述第i最優參數和所述預處理語音信號對第i+1層的限制玻爾茲曼機進行無監督訓練,獲得第i+1最優參數;

參數微調單元,用於將所述多個最優參數利用全局訓練的方法微調至所述深度信念網絡收斂至全局最優,獲得多個微調最優參數;

語音信號特徵提取單元,用於根據所述微調最優參數提取所述預處理語音信號的語音信號特徵。

所述情感識別模塊4具體包括:

核函數單元,用於採用核函數將所述語音信號特徵的樣本點映射到高維特徵空間,獲得空間線性可分的樣本;

邏輯判斷單元,用於所述支持向量機根據所述空間線性可分的樣本對所述語音信號特徵進行邏輯判斷,獲得語音情感識別結果。

由深度信念網絡提取出語音信號中的情感特徵的多維特徵向量後,需要一個適合情感分類器。本方法採用支持向量機採用一對一方式對四種情感(驚奇、高興、憤怒、悲傷)進行分類。將深度信念網絡提取出語音信號中的情感特徵的多維特徵向量作爲支持向量機分類器的輸入,對於語音情感的非線性可分問題,利用核函數將輸入特徵的樣本點映射到高維特徵空間,使得對應的樣本空間線性可分。基於支持向量機的情識別系統框圖如圖3所示。

一對一”方式是對任意兩種情感構建超平面,需要訓練k*(k-1)/2個子分類器。整個訓練過程一共需要個支持向量機子分類器,即6個。每一個子分類器由驚奇、高興、憤怒、悲傷四種情感特徵中的任意兩種訓練而成。即:高興-憤怒,高興-悲傷,高興-驚奇,憤怒-悲傷,憤怒-驚奇,悲傷-驚奇。在每兩類間訓練一個分類器,當對一個未知語音情感進行分類時,每個分類器都對其類別進行判斷.併爲相應的類別“投上一票”,最後得票最多的類別即作爲該未知情感的類別。決策階段採用投票法,可能存在多個類的票數相同的情況,從而使未知樣本同時屬於多個類別,影響分類精度。

支持向量機分類器訓練和識別之前均需爲每句情感語音信號設計一個標籤,用以表示該句情感語音信號所屬的情感類別。標籤的類型必須設爲雙型。在情感識別過程中,同時將特徵向量輸入到所有支持向量機中,每個支持向量機的輸出通過邏輯判決後來選擇最可能的情感類別,最終把權值最高(票數最多)的情感作爲待識別語音信號的情感狀態,能夠得到識別結果。

本說明書中各個實施例採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對於實施例公開的系統而言,由於其與實施例公開的方法相對應,所以描述的比較簡單,相關之處參見方法部分說明即可。

本文中應用了具體個例對本系統的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本系統的方法及其核心思想;同時,對於本領域的一般技術人員,依據本系統的思想,在具體實施方式及應用範圍上均會有改變之處。綜上所述,本說明書內容不應理解爲對本系統的限制。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章