語音識別之kaldi

最近一直在折騰kaldi,在這個龐大的系統面前,自己是那麼的微小。由於數據庫的原因,我只能運行kaldi所給例子的一部分。下面就來說說最近的進展吧。

     第一個例子就是yesno這個例子。由於提供數據,而且數據比較小,可以非常容易的去實現這個例子。具體的可以見我之前的博客:語音識別工具箱之kaldi介紹。

     第二個例子是rm裏面的s4。具體的步驟也很簡單,首先運行./getdata.sh,然後運行run.sh。貼下最後的結果:

        exp/tri2a/decode/wer_10:%WER 6.48 [ 368 / 5681, 47 ins, 91 del, 230 sub ]
        exp/tri2a/decode/wer_4:%WER 6.51 [ 370 / 5681, 88 ins, 47 del, 235 sub ]
        exp/tri2a/decode/wer_5:%WER 6.39 [ 363 / 5681, 79 ins, 53 del, 231 sub ]
        exp/tri2a/decode/wer_6:%WER 6.48 [ 368 / 5681, 73 ins, 62 del, 233 sub ]
        exp/tri2a/decode/wer_7:%WER 6.50 [ 369 / 5681, 68 ins, 66 del, 235 sub ]
        exp/tri2a/decode/wer_8:%WER 6.51 [ 370 / 5681, 60 ins, 76 del, 234 sub ]
        exp/tri2a/decode/wer_9:%WER 6.51 [ 370 / 5681, 54 ins, 83 del, 233 sub ]

   第三個例子是timit,這個數據可以從網上下載。大家可以到http://www.fon.hum.uva.nl/david/ma_ssp/2007/TIMIT/下載這個數據。具體怎麼下,我想你可以去找個軟件下載,畢竟那麼多的小文件。這個數據得到的話,基本timit裏的所有實驗都可以去做。但是我現在卡在一些步驟上了。如果你實現了,希望你可以跟我聯繫,幫助我下。我們相互學習。

   第四個例子是voxforge,衆所周知,voxforge裏的數據可以自己去下載。大家也可以利用kaldi裏的voxforge/s5的getdata.sh來下載。這個數據大概12.6GB左右。如果想下載,保證你的ubuntu有足夠的空間。硬件是件很重要的事情,我之前一直在這上面卡了很多天。做voxforge這個實驗還是比較麻煩的,需要安裝的東西太多。我自己也遇到了一些困難,現在正在解決。但願可以早日解決啊。如果你實現了,可以跟我交流。

 

    最後需要說的是,大家在做實驗的時候一定事先評估下自己的硬件條件,需要你有足夠的時間去思考。kaldi論壇上的discussion是比較好的,上面有povey和一些人幫助我們解決問題。這個是kaldi在sourceforge上的網址:http://sourceforge.net/p/kaldi/discussion/。問你遇到的問題,基本一天之內肯定有人幫你解決。

 

 

    下面是我博客中有關kaldi的博文,希望對你有幫助:

     1. 語音識別工具箱之kaldi介紹

     2.語音識別系統之kaldi-----安裝續

 

 

  最後,我這些全是我自己學習的一些東西,僅供參考。如果有什麼問題,歡迎加入我的qq:354475072。希望我們共同學習,共同進步。
https://blog.csdn.net/wbgxx333/article/details/17469947

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章