首次開源!一行代碼輕鬆搞定中英文語音識別、合成、翻譯核心功能!


要說生活裏最常見的AI應用場景,語音合成與識別當屬大家最爲耳熟能詳的場景之一了。

尋常到平時地圖導航的播報、微信語音轉文字、手機語音輸入,以及小度智能音箱,都離不開語音技術的加持。

語音技術到底是怎麼實現的?有哪些現成可用的開源代碼可以快速集成到項目裏?可以說是每一名開發者非常關心的問題。

 

那麼,福利時間到了,今天這個集成了中英文語音識別、語音翻譯、語音合成、聲音分類能力,而且一行代碼輕鬆試驗效果的開源項目,你一定不能錯過!





01

項目介紹


話不多說,先來看項目中給出的效果展示。

語音識別

輸入音頻1

識別結果1
I knocked at the door on the ancient side of the building.



輸入音頻2
識別結果2

我認爲跑步最重要的就是給我帶來了身體健康。


語音翻譯(英譯中)

輸入音頻

識別結果

我 在 這棟 建築 的 古老 門上 敲門。

語音合成

輸入文本1

Life was like a box of chocolates, you never know what you're gonna get.


合成音頻1


輸入文本2

早上好,今天是2020/10/29,最低溫度是-3°C。


合成音頻2


可以看到,無論是中英文的識別,還是中英文的合成,這個開源項目都有不錯的效果,特別的,項目中還包含了語音翻譯能力,可以實現英文語音同傳翻譯爲中文字幕,這個確實太強大了。


傳送門

GitHub 地址:
https://github.com/PaddlePaddle/PaddleSpeech

有讀者肯定想問,這麼強大的語音能力,是不是想要用起來比較麻煩?
不得不說,這個項目在易用性上真的也是考慮得非常周到。


02

安裝測試效果


我們按照首頁的引導:
一行命令安裝:

一行命令快速開始使用: 

這裏,小編抱着試一試的態度,在本機上安裝了這個項目,安裝完成之後,先使用語音合成試一下。
生成的效果大家可以聽一下~

然後,帶着好奇心,我們再把合成的結果送到語音識別試一下,看看效果:
最終輸出結果:

可以看到,這一套循環下來,效果非常不錯!

除了出色的效果,易用的體驗,我們再看看這個項目中還有什麼寶藏可以挖掘,果然我們發現項目中還包含豐富的預訓練模型,並且語音識別和語音合成均支持自定義訓練。



03

豐富的預訓練模型



語音識別包含聲學模型和語言模型, 詳情如下:


語音合成 主要包含三個模塊:文本前端、聲學模型和聲碼器。聲學模型和聲碼器模型如下:


04

完善的文檔教程


並且開源以來,收到開發者的廣泛關注,已經有大量開發者投入到項目的建設中並且貢獻內容。
真·乾貨滿滿!

別的不需要多說了,請大家訪問GitHub親自體驗吧:
https://github.com/PaddlePaddle/PaddleSpeech
如果大家滿意的話,歡迎點個小星星鼓勵下我們的工程師!



05

直播課程  大牛帶學


爲了幫助大家瞭解更多語音技術前沿進展,玩轉開源項目,12月21日-24日每晚20:15-21:30,由百度研究院深度學習實驗室(美研)主任黃亮老師領銜,多位語音領域資深工程師爲大家帶來一套精品技術直播課,詳解語音方向的核心技術。


掃碼報名課程,加入技術交流羣




PaddleSpeech項目地址:

GitHub: https://github.com/PaddlePaddle/PaddleSpeech

Gitee: https://gitee.com/paddlepaddle/PaddleSpeech


本文分享自微信公衆號 - 百度開發者中心(baidudev)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章