單個音頻波形圖和對應聲譜圖的可視化|特徵可視化
原始資料來自原作者的jupyter notebook[jupyter]
這裏的一些可視化工具,可能可以用來新的數據集分析,以及算法性能比較。
本人謄寫的代碼在這裏[source]
單個音頻波形圖和對應聲譜圖的可視化
特徵可視化
這裏是用來分析所使用的音頻特徵的區分度(有效性)。可視化的方法有很多,但是背後其實是降維。以常用的音頻特徵MFCC爲例,首先看一下在單個音頻clip上的分佈表現。這裏用的seaborn的boxplot實現了一個特徵分佈的箱圖。箱圖是一個看起來高大上的統計指標,主要用來表徵數據的分佈情況。和簡單的使用均值和方差相比,箱圖可以反映更多的信息。seaborn是matplotlib的高級封裝版,僅此而已。
注意的意思不大,因爲它的分佈實在是有點平凡。但是注意到和的分佈差異很明顯。(在特徵表示裏,特徵的各個維度區分度diversity越明顯越好)
我們可以進一步分析在不同clips之間的表現。同樣帶上過零率。過零率的區分度和MFCCs還是很大的。
上面是第20類(Crying baby)的特徵可視化,再看一看Rain這個類的特徵可視化:
兩張圖一比較,就能發現這兩類聲音的特徵分佈差異還是很明顯的。
最後來一張50類的全家福: