純PyTorch語音工具包SpeechBrain開源，Kaldi：我壓力有點大

原創

2021-04-06 21:32

距離 Mirco Ravanelli 宣佈打造新的語音工具包過去了一年多，SpeechBrain 真的如期而至。

語音處理技術的進步，是人工智能改變大衆的生活的重要一環。深度學習技術的興起，也讓這一領域近年來得到了長足的發展。在過往，該領域的主要方法是爲不同的任務開發不同的工具包，對於使用者來說，學習各個工具包需要大量時間，還可能涉及到學習不同的編程語言，熟悉不同的代碼風格和標準等。現在，這些任務大多可以用深度學習技術來實現。

此前，開發者常用的語音工具有 Kaldi、ESPNet、CMU Sphinx、HTK 等，它們各有各的不足之處。以 Kaldi 爲例，它依賴大量的腳本語言，而且核心算法使用 C++ 編寫，再加上可能需要改變各種神經網絡的結構。即便是擁有豐富經驗的工程師，在調試的時候也會經歷巨大的痛苦。

秉承着讓語音開發者更輕鬆的原則，Yoshua Bengio 團隊成員 Mirco Ravanelli 等人曾經開發了一個試圖繼承 Kaldi 的效率和 PyTorch 的靈活性的開源框架——PyTorch-Kaldi，但據開發成員本人認爲「還不夠完善」。

所以，在一年多前， Mirco Ravanelli 宣佈要打造一款新的一體化語音工具包 SpeechBrain。該項目於近日正式開源，鑑於上述背景，SpeechBrain 誕生的主要宗旨是：夠簡單、夠靈活、對用戶友好。

項目地址：https://github.com/speechbrain/speechbrain

作爲一個基於 PyTorch 的開源一體化語音工具包，SpeechBrain 可用於開發最新的語音技術，包括語音識別、說話者識別、語音增強、多麥克風信號處理和語音識別系統等，且擁有相當出色的性能。團隊將其特徵概況爲「易於使用」、「易於定製」、「靈活」、「模塊化」等。

對於機器學習研究者來說，SpeechBrain 可輕鬆嵌入其他模型，促進語音技術的相關研究；對於初學者來說，SpeechBrain 也不難掌握，根據測試，一般開發者僅需要幾個小時就能熟悉該工具包的使用。此外，開發團隊也發佈了很多教程以供參考（https://speechbrain.github.io/tutorial_basics.html）。

總體來說，SpeechBrain 有以下幾大亮點：

開發團隊與 HuggingFace 集成一些預訓練模型，這些模型具備可運行推理的接口。如果 HuggingFace 模型不可用，團隊會提供一個 Google Drive 文件夾，包含所有對應的實驗結果；
使用 PyTorch 數據並行或分佈式數據並行來進行多 GPU 訓練和推理；
混合精度，加快訓練速度；
透明且完全可自定義的數據輸入和輸出 pipeline。SpeechBrain 遵循 PyTorch 數據加載器和數據集樣式，使用戶能夠自定義 I / O pipeline。

快速安裝

目前開發者可以通過 PyPI 安裝 SpeechBrain，此外還可以使用本地安裝來運行實驗和修改 / 自定義工具包。

SpeechBrain 支持基於 Linux 的發行版和 macOS（且針對 Windows 用戶也提供了相應解決方案：https://github.com/speechbrain/speechbrain/issues/512）。

SpeechBrain 支持 CPU 和 GPU，但對於大多數 recipe 而言，訓練期間必須使用 GPU。需要注意的是，必須正確安裝 CUDA 才能使用 GPU。

安裝教程地址：https://speechbrain.readthedocs.io/en/latest/installation.html

通過 PyPI 安裝

創建 Python 環境後，只需輸入以下內容即可：

pip install speechbrain

然後可以使用以下命令訪問 SpeechBrain：

import  speech  brain  as  sb

本地安裝

創建 Python 環境後，只需輸入以下內容即可：

git clone https://github.com/speechbrain/speechbrain.gitcd speechbrainpip install -r requirements.txtpip install --editable .

然後可以通過以下方式訪問 SpeechBrain：

import  speechbrain  as  sb

對 speechbrain 軟件包所做的任何修改，將在安裝帶有 --editable 標誌的軟件包時自動解釋。

SpeechBrain 未附屬於任何機構，團隊成員來自 Mila 研究所、Nuance、杜比實驗室、英偉達、三星、Viadialog 等實驗室和企業單位。最初的兩位負責人是 Mila 研究所博士後 Mirco Ravanelli 和 Avignon 博士生 Titouan Parcollet。目前，Speechbrain 項目還在完善中，也歡迎更多開發人員加入。

看到這裏，Kaldi 會不會感到壓力有點大了呢？

歡迎留言一起討論！

請長按掃碼加小編，回覆關鍵詞：數據可視化

進羣一起學習交流吧

▲長按掃

-今日互動-

你get到了嗎？歡迎文章下方留言互動

如果感覺對你有幫助的話


           
           
           
 
            
            
            
  
             
             
             
   
              
              
              
    
               
               
                
                 
                  
                  來個「 
                  轉發朋友圈 
                  」和「 
                  在看 
                  」，一起見證你的努力和成長，是對我們最大的支持！

本文分享自微信公衆號 - DataScience（DataScienceTeam）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

純PyTorch語音工具包SpeechBrain開源，Kaldi：我壓力有點大

又一批數據分析師放棄了Python，全面擁抱2021Excel（附200套可視化實用模板）

耗時一週整理，一套完整的數據分析項目，附PDF文檔下載！

【EI 快速檢索 | 九月特邀】經濟、計算機多主題徵稿~

關閉算法推薦正如刻舟求劍

我，27歲，數據分析師，今年無情被辭：想給數據人提個醒！！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結