淺談MFCC

MFCC的基本過程可以看看這個，（1）淺談MFCC（2）聲音特徵提取但這個也就是個基本的過程，畢設的基本理論方面是可以用的到的，而具體詳細實現的細節及代碼後續再做補充。

MFCC最直觀的認知，它的13個係數（也許還有13個一階差分和13個二階差分）都是通過離散餘弦變換（DCT）而來，並取前13個係數。DCT

所說，爲了獲得頻譜的倒譜，倒譜的低頻分量就是頻譜的包絡，倒譜的高頻分量就是頻譜的細節，這些都是語音識別上經過科學驗證十分有效的語音物理信息。但語音識別是對機器來說的，所以我們必須對物理信息進行某種“編碼”，得到的就是MFCC13維特徵向量，你是否理解它不重要，只要機器能夠識別就行了。

綜上所述，我認爲MFCC的物理含義就是——在語音識別領域，將語音物理信息（頻譜包絡和細節）進行編碼運算得到的一組特徵向量。

在知乎上看到這樣一個很直觀的例子 Mel頻率倒譜系數對應的物理含義

首先看下面圖中的波形，如果你“播放”它，其實就是鼓聲“咚噠咚咚噠”這五聲兒。

把這段鼓聲分成130幀，每一幀內提取20維的MFCC，就會得到下圖：

可以看到“咚”和“噠”的時候對應的MFCC還是有區別的，爲了讓這個區別更明顯，可以對每一維的係數稍作處理，於是得到下圖：

附錄python源碼：

# 需要用到的包
import numpy, scipy, sklearn, librosa
# 錄入咚噠咚咚噠的音頻例子
x, fs = librosa.load('example.wav')
# 畫出波形圖（上方第一個圖）
librosa.display.waveplot(x, sr=fs)
# 提取MFCC
mfccs = librosa.feature.mfcc(x, sr=fs)
# 獲取特徵值的維度
print mfccs.shape  #打印將輸出(20,130)
# 畫出MFCC的圖（上方第二個圖）
librosa.display.specshow(mfccs, sr=fs, x_axis='time')
# 對MFCC的數據進行處理
mfccs = sklearn.preprocessing.scale(mfccs, axis=1)
# 畫出處理後的圖（上方第三個圖）
librosa.display.specshow(mfccs, sr=fs, x_axis='time')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

今天搞畢設了麼？——4.15 MFCC及倒譜系數

淺談MFCC

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

《達觀杯》學習第二天（代碼學習及其分析）

《達觀杯》學習第一天（緒論入門）

win10下深度學習框架搭建

tf.name_scope(‘xxx’) // tf.variable_scope(‘xxx’) 權值共享

論文——《Loss Functions for Image Restoration With Neural Networks》

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結