語音情感計算理論基礎
1.語音情感計算中情感的建模方法有哪些?有什麼區別?情感計算主要應用於哪些領域?
- 支持向量機(SVM)、隱馬爾可夫模型(HMM)、人工神經網路(NN)等。
- SVM:基音+SVM算法=統計特徵→識別語音狀態;
- HMM:輸入特徵矢量序列+訓練=統計信號→識別語音狀態;
- NN:多層神經網路+訓練=模擬人腦組織→識別語音狀態。
- 虛擬人物、身份驗證、智能用戶界面、交互式感性圖像檢索、多功能機、語音識別、面部識別、軍用可穿戴計算機等等。
2.列舉三種以上的用於語音情感計算的聲學特徵,並解釋其物理含義。
聲學特徵:
- 音色。發音體形狀、質地、構造不同,決定了音色的不同。
- 音調。發音體聲音頻率的高低。
- 音強。發音體振動的幅度特徵。
- 音長。發音體振動延續的時間特徵。
語句特徵:
- 基頻。基音的頻率,決定了音高。在不同情感狀態說,說同一段話,基頻是不同的。一般研究基頻的峯值、均值、方差等特徵。
- 低於250HZ的譜能量。根據parseval定理,信號傅氏變換模平方被稱爲譜能量。帶有情緒的狀態下譜能量和低於250HZ的譜能量時的存在一些規律。
- 語速。講一個語句的速度。不同情緒下的語速有規律性差異。
- 能量。生氣和高興時能量高,其次平靜,悲傷最低。