ESC-50數據集的分析(1)

單個音頻波形圖和對應聲譜圖的可視化|特徵可視化

原始資料來自原作者的jupyter notebook[jupyter]

這裏的一些可視化工具,可能可以用來新的數據集分析,以及算法性能比較。

本人謄寫的代碼在這裏[source]

單個音頻波形圖和對應聲譜圖的可視化

單個音頻波形圖和對應聲譜圖

特徵可視化

這裏是用來分析所使用的音頻特徵的區分度(有效性)。可視化的方法有很多,但是背後其實是降維。以常用的音頻特徵MFCC爲例,首先看一下在單個音頻clip上的分佈表現。這裏用的seaborn的boxplot實現了一個特徵分佈的箱圖。箱圖是一個看起來高大上的統計指標,主要用來表徵數據的分佈情況。和簡單的使用均值和方差相比,箱圖可以反映更多的信息。seaborn是matplotlib的高級封裝版,僅此而已。
單clip特徵箱圖

注意MFCC0MFCC_0的意思不大,因爲它的分佈實在是有點平凡。但是注意到MFCC1MFCC_1MFCC2MFCC_2的分佈差異很明顯。(在特徵表示裏,特徵的各個維度區分度diversity越明顯越好)

我們可以進一步分析MFCC1MFCC_1在不同clips之間的表現。同樣帶上過零率。過零率的區分度和MFCCs還是很大的。
跨clips的特徵可視化

上面是第20類(Crying baby)的特徵可視化,再看一看Rain這個類的特徵可視化:
跨clips的特徵可視化2

兩張圖一比較,就能發現這兩類聲音的特徵MFCC1MFCC_{1}分佈差異還是很明顯的。

最後來一張50類的全家福:
所有類別的特徵可視化

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章