原创 語音分離speech separation數據準備,開源

Speech separation 現在大熱的一個方向,西雅圖的騰訊一直在作者方面的研究,chime6上俞老師講了一個多小時的他們的工作就能證明該方向有多火, 當前有很多深度學習的方法如deep-clustering, PIT, utte

原创 第一次參加 CHiME-6 challenge 總結

第一次參加chime的自然場景多人對話遠場語音識別評測 主要負責數據增強和音頻信號處理 衝着高分去的,但由於最終的transcriptions包含了特殊symbol, 本來達到了既定目標,但修改之後最終結果並沒有達到預期,   有幾點記錄

原创 譜減去混響方法----附上matlab 代碼 (已更新,貼上了代碼和論文, 新增split_frame和overlapadd代碼)

鑑於有人要求stft和istft代碼,我就把它貼出來,之前不貼出來是因爲很多人stft和istft是不一樣的,而且實時跟離線算法的stft跟istft在實現上也是有點不同的,你可以用自己的,也可以用我的,但思路和結果都是一樣的. 我不發上

原创 RNNOISE 16K音頻訓練方式

鑑於很多同學都在問RNNoise如何把48k的原始代碼改成能訓練16k音頻的, 我就把我做的rnnoise 16k的一些小改動開源出來, 一起探討研究。   先mark, 後面詳細來介紹如何改,代碼已經放上了github RNNoise_

原创 新的一年的工作,新的開始

新的一年,開展新的領域--------盲源分離 去年幹了一年的去混響工作已經上線了。 今年開始全力衝盲源分離, 從CASA到DPCL到PIT, 都得好好地攻破下來!!! 另外, 想讀博了!!希望自己能在工作之餘在speech separa

原创 RNNoise要注意的部分(草稿記錄)

rnnoise會有一個pitch_filter 這是由於因爲它們在生成特徵時不是用頻域上所有頻點,而是採取bark's scale的切分頻段來對不同頻率的頻段進行特徵處理 這樣的話頻域上的分辨率會降低,然後導致最後在進行降噪後生成的語音會

原创 譜減去混響方法----附上matlab 代碼

去年底跳槽之後,轉做前端了,主要在去混響部分, 目前自我實現的算法有SS和kalman filter,都是根據論文來複現的,但是比較常用的叫WPE, 接觸時間不長,還在研究學習階段,慢慢分享心得   佔個坑, 等下班來發譜減去混響的算法和

原创 新的征程以及AISHELL x-vector跑分

從原來的公司跳槽去上海的一家新公司,不做聲紋識別,要準備做語音識別了,新的開始,加油! 在跳槽前用aishell數據重新訓練了一個x-vector, 能達到0.8%的EER,相較於我自己測試的i-vector的5%有80%多的提高。 下次

原创 Kaldi sre10, sre16 數據格式

做個記錄, 給大多數跑腳本但是又沒有官方數據的朋友一起交流討論: 引用自己在知乎的回答: 跑kaldi的腳本到最後都是得用自己的數據去訓練去測試的, kaldi只需要三個文件utt2spk, spk2utt和wav.scp. 具體的你其實

原创 Kaldi各種已經訓練好的模型

做個記錄 http://kaldi-asr.org/models.html 這網站是Kaldi中各種語音任務pretrained過的模型 有視源ASR的, xvector做聲紋識別的, emebedding做diarization的, 大

原创 說話人識別/聲紋識別學習路徑的資料整理,從零學聲紋識別

昨天幫新同事講解了一波說話人識別的理論,並且幫他整理了資料讓他學習, 這個博客就是把最具有代表性的資料記錄下來,前提,我假設你知道啥是MFCC,啥是VAD,啥是CMVN了. 說話人識別學習路徑無非就是 GMM-UBM -> JFA ->

原创 Kaldi中 聲紋識別的流程圖

總結了一波Kaldi中聲紋識別的流程和所用的可執行文件,.把可執行文件當作一個庫來用,自己來仿照這sre08,sre10,或者aishell的run.sh用自己的數據來完成自己的聲紋識別系統就好.自己還在研究,但是說幾個我認爲比較關鍵的地

原创 PLDA的原理和em訓練(爲了be user friendly開始用latex寫公式)

最近一直在學習和操作PLDA,感覺這個算法太有才了,對身份驗證如人臉識別,聲紋識別,OCR都有用.   先對自己的工作和麪試別人以及被面試有一份感悟: 1.數學太重要了,有些人看論文難啃的原因就是公式看不懂,公式看不懂就是數學不好,後面要

原创 MFCC一些知識與Kaldi中的MFCC特徵解讀

因爲想用Kaldi去實現一個GMM-UBM的說話人識別和loglike打分,所以想把Kaldi計算的統計量對一對,看能不能把二進制文件裏的數值單獨拿出來,自己寫個代碼做結合Kaldi中的MAP做統計量計算,然後再放回去。但是當把訓練好的U

原创 Kaldi 對說話人識別GMM-UBM的MAP 參數更新和對數似然概率解讀

寫博客=寫日記,爲自己記錄工作進度和理論知識,如果有恰好路過的大牛經過,可以駐足看看我的理解本人剛接觸說話人識別不到一個月,因工作需求研究了kaldi。大致弄懂了GMM-UBM,正在研究Ivector的理論和實踐.雖然個人更喜歡數據分析,