機器之心對俞棟的採訪

原創

2020-06-15 04:37

機器之心：從您和鄧力老師的那本書《Automatic Speech Recognition： A Deep Learning Approach》出版到現在，您認爲期間深度學習有了什麼新的研究成果? 哪些研究成果您認爲是很重大的？

俞棟：我們寫這本書的時候，LSTM 這樣的模型纔剛剛開始成功應用於語音識別。當時大家對其中的很多技巧還沒有很好的瞭解。所以訓練出來的模型效果還不是那麼好。最近，我的同事 Jasha Droppo 博士花了很多時間在 LSTM 模型上面，提出了一種很有意思的基於 smoothing 的 regularization 方法使得 LSTM 模型的性能有了很大的提升。他的 smoothing 方法的基本思想在我們的 human parity 文章中有介紹。

另外一個比較大的進展是 Deep CNN。最近兩年裏，很多研究組都發現或證實使用小 Kernel 的 Deep CNN 比我們之前在書裏面提到的使用大 kernel 的 CNN 方法效果更好。Deep CNN 跟 LSTM 比有一個好處。用 LSTM 的話，一般你需要用雙向的 LSTM 效果才比較好。但是雙向 LSTM 會引入很長的時延，因爲必須要在整個句子說完之後，識別才能開始。而 Deep CNN 的時延相對短很多，所以在實時系統裏面我們會更傾向於用 Deep CNN 而不是雙向 LSTM。

還有就是端到端的訓練方式也是在我們的書完成後才取得進展的。這方面現在大家的研究工作主要集中在兩類模型上。一類就是 CTC 模型，包括 Johns Hopkins 大學的 Dan Povey 博士從 CTC 發展出來的 lattice-free MMI；還有一類是 attention-based sequence to sequence model。這些模型在我們的書裏面都沒有描述，因爲當時還沒有做成功。即便今天它們的表現也還是比 hybrid model 遜色，訓練的穩定性也更差，但是這些模型有比較大的 potential。如果繼續研究有可能取得突破。

另外一個進展是單通道語音分離，尤其是多人混合語音的分離。這方面有兩項有趣的工作。一個是 MERL 的 John Hershey 博士提出的 Deep Clustering 方法，另外一個是我們提出的 Permutation Invariant Training。實現上，Permutation Invariant Training 更簡單。John Hershey 認爲有跡象表明 deep clustering 是 permutation invariant training 的一個特例。

這些都是在我們完書之後最近兩年裏比較有意義的進展。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器之心對俞棟的採訪

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

KubeKey 部署 K8s v1.28.8 實戰

機器之心對俞棟的採訪

http://www1.bbsland.com/education/messages/236421.html

LibSVM學習（六）——easy.py和grid.py的使用(轉)

kaldi 源碼閱讀-transition-model

異常聲音檢測之kaldi DNN 訓練

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結