語音情感計算理論基礎

1.語音情感計算中情感的建模方法有哪些?有什麼區別?情感計算主要應用於哪些領域?

  1. 支持向量機(SVM)、隱馬爾可夫模型(HMM)、人工神經網路(NN)等。
    • SVM:基音+SVM算法=統計特徵→識別語音狀態;
    • HMM:輸入特徵矢量序列+訓練=統計信號→識別語音狀態;
    • NN:多層神經網路+訓練=模擬人腦組織→識別語音狀態。
  2. 虛擬人物、身份驗證、智能用戶界面、交互式感性圖像檢索、多功能機、語音識別、面部識別、軍用可穿戴計算機等等。

2.列舉三種以上的用於語音情感計算的聲學特徵,並解釋其物理含義。

聲學特徵:

  • 音色。發音體形狀、質地、構造不同,決定了音色的不同。
  • 音調。發音體聲音頻率的高低。
  • 音強。發音體振動的幅度特徵。
  • 音長。發音體振動延續的時間特徵。

語句特徵:

  • 基頻。基音的頻率,決定了音高。在不同情感狀態說,說同一段話,基頻是不同的。一般研究基頻的峯值、均值、方差等特徵。
  • 低於250HZ的譜能量。根據parseval定理,信號傅氏變換模平方被稱爲譜能量。帶有情緒的狀態下譜能量和低於250HZ的譜能量時的存在一些規律。
  • 語速。講一個語句的速度。不同情緒下的語速有規律性差異。
  • 能量。生氣和高興時能量高,其次平靜,悲傷最低。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章