第一次參加 CHiME-6 challenge 總結

第一次參加chime的自然場景多人對話遠場語音識別評測

主要負責數據增強和音頻信號處理

衝着高分去的,但由於最終的transcriptions包含了特殊symbol, 本來達到了既定目標,但修改之後最終結果並沒有達到預期,

 

有幾點記錄一下:

1.  GSS + ASR alignment是能穩定提升1.5%的識別率的,取決於用什麼ASR模型進行alignment了,這個的目的就是去找有效音,因爲原始的用時間戳的對齊方法,對每一幀他是不會標註出“靜音”幀的。 vad同理能在這裏取得不錯的效果,但是沒有ASR的好。 GSS alignment在pb_chime5 需要改一下數據處理的不穩已經標註部分,但是chime-7大概率換了批數據,所以這個算法以後大概率不會在用到了,畢竟比現在的pit,danet等算法更不實用,出來的音頻更失真。把GSC修改成mask-based會更好

2.根據房間參數生成RIR會更好

3.cnn-tdnnf還是王道

4.這種比賽還是對同一場景下的數據過擬合會更好

5.Separation的作用與BF搭配能超越傳統BF,利用separation 估計一個mask出來再傳入bf,能比市面上任何BF都好

6.沒有實驗ROVER的fusion結果,但lattice-combine 能達到不錯的結果,我相信ROVER應該會更好

7.wpe做stft時需要做fading和pad,不然效果會不好,甚至雪崩

8.做alignment時要把subsample設置爲1

9.GSS多換換麥克風的stacking的組合方式,比如,12, 23結果比較好

 

Chime6 比賽

結果已經出來啦, 大家可以去看各自的paper,學他們的方法, 我們雖然成績不靠前,但是也有自己與衆不同的地方,哈哈哈

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章