機器之心對俞棟的採訪

http://sanwen8.cn/p/5c32E5V.html

機器之心:從您和鄧力老師的那本書《Automatic Speech Recognition: A Deep Learning Approach》出版到現在,您認爲期間深度學習有了什麼新的研究成果? 哪些研究成果您認爲是很重大的?

俞棟:我們寫這本書的時候,LSTM 這樣的模型纔剛剛開始成功應用於語音識別。當時大家對其中的很多 技巧 還沒有很好的瞭解。所以訓練出來的模型效果還不是那麼好。最近,我的同事 Jasha Droppo 博士花了很多時間在 LSTM 模型上面,提出了一種很有意思的基於 smoothing 的 regularization 方法使得 LSTM 模型的性能有了很大的提升。他的 smoothing 方法的基本思想在我們的 human parity 文章中有介紹。

另外一個比較大的進展是 Deep CNN。最近兩年裏,很多研究組都發現或證實使用小 Kernel 的 Deep CNN 比我們之前在書裏面提到的使用大 kernel 的 CNN 方法效果更好。Deep CNN 跟 LSTM 比有一個好處。用 LSTM 的話,一般你需要用雙向的 LSTM 效果才比較好。但是雙向 LSTM 會引入很長的時延,因爲必須要在整個句子說完之後,識別才能開始。而 Deep CNN 的時延相對短很多,所以在實時系統裏面我們會更傾向於用 Deep CNN 而不是雙向 LSTM。

還有就是端到端的訓練方式也是在我們的書完成後才取得進展的。這方面現在大家的研究工作主要集中在兩類模型上。一類就是 CTC 模型,包括 Johns Hopkins 大學的 Dan Povey 博士從 CTC 發展出來的 lattice-free MMI;還有一類是 attention-based sequence to sequence model。這些模型在我們的書裏面都沒有描述,因爲當時還沒有做成功。即便今天它們的表現也還是比 hybrid model 遜色,訓練的穩定性也更差,但是這些模型有比較大的 potential。如果繼續研究有可能取得突破。

另外一個進展是單通道語音分離,尤其是多人混合語音的分離。這方面有兩項有趣的工作。一個是 MERL 的 John Hershey 博士提出的 Deep Clustering 方法,另外一個是我們提出的 Permutation Invariant Training。實現上,Permutation Invariant Training 更簡單。John Hershey 認爲有跡象表明 deep clustering 是 permutation invariant training 的一個特例。

這些都是在我們完書之後最近兩年裏比較有意義的進展。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章