首次開源！一行代碼輕鬆搞定中英文語音識別、合成、翻譯核心功能！

要說生活裏最常見的AI應用場景，語音合成與識別當屬大家最爲耳熟能詳的場景之一了。

尋常到平時地圖導航的播報、微信語音轉文字、手機語音輸入，以及小度智能音箱，都離不開語音技術的加持。

語音技術到底是怎麼實現的？有哪些現成可用的開源代碼可以快速集成到項目裏？可以說是每一名開發者非常關心的問題。

“

那麼，福利時間到了，今天這個集成了中英文語音識別、語音翻譯、語音合成、聲音分類能力，而且一行代碼輕鬆試驗效果的開源項目，你一定不能錯過！

”

01

項目介紹

話不多說，先來看項目中給出的效果展示。

語音識別

輸入音頻1

識別結果1

I knocked at the door on the ancient side of the building.

輸入音頻2

識別結果2

我認爲跑步最重要的就是給我帶來了身體健康。

語音翻譯（英譯中）

輸入音頻

識別結果

我在這棟建築的古老門上敲門。

語音合成

輸入文本1

Life was like a box of chocolates, you never know what you're gonna get.

合成音頻1

輸入文本2

早上好，今天是2020/10/29，最低溫度是-3°C。

合成音頻2

可以看到，無論是中英文的識別，還是中英文的合成，這個開源項目都有不錯的效果，特別的，項目中還包含了語音翻譯能力，可以實現英文語音同傳翻譯爲中文字幕，這個確實太強大了。

傳送門

GitHub 地址：

https://github.com/PaddlePaddle/PaddleSpeech

有讀者肯定想問，這麼強大的語音能力，是不是想要用起來比較麻煩？

不得不說，這個項目在易用性上真的也是考慮得非常周到。

02

安裝測試效果

我們按照首頁的引導：

一行命令安裝：

一行命令快速開始使用：

這裏，小編抱着試一試的態度，在本機上安裝了這個項目，安裝完成之後，先使用語音合成試一下。

生成的效果大家可以聽一下~

然後，帶着好奇心，我們再把合成的結果送到語音識別試一下，看看效果：

最終輸出結果：

可以看到，這一套循環下來，效果非常不錯！

除了出色的效果，易用的體驗，我們再看看這個項目中還有什麼寶藏可以挖掘，果然我們發現項目中還包含豐富的預訓練模型，並且語音識別和語音合成均支持自定義訓練。

03

豐富的預訓練模型

語音識別包含聲學模型和語言模型, 詳情如下：

語音合成 主要包含三個模塊：文本前端、聲學模型和聲碼器。聲學模型和聲碼器模型如下：

04

完善的文檔教程

並且開源以來，收到開發者的廣泛關注，已經有大量開發者投入到項目的建設中並且貢獻內容。

真·乾貨滿滿！

別的不需要多說了，請大家訪問GitHub親自體驗吧：

https://github.com/PaddlePaddle/PaddleSpeech

如果大家滿意的話，歡迎點個小星星鼓勵下我們的工程師！

05

直播課程大牛帶學

爲了幫助大家瞭解更多語音技術前沿進展，玩轉開源項目，12月21日-24日每晚20:15-21:30，由百度研究院深度學習實驗室（美研）主任黃亮老師領銜，多位語音領域資深工程師爲大家帶來一套精品技術直播課，詳解語音方向的核心技術。

掃碼報名課程，加入技術交流羣

PaddleSpeech項目地址：

GitHub: https://github.com/PaddlePaddle/PaddleSpeech

Gitee: https://gitee.com/paddlepaddle/PaddleSpeech

本文分享自微信公衆號 - 百度開發者中心（baidudev）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

首次開源！一行代碼輕鬆搞定中英文語音識別、合成、翻譯核心功能！

01

02

03

04

05

速來報名！第二屆‘文心杯’創業大賽開啓，5000萬最高投資獎勵

擁抱AI，由GBC開始｜2024 CGMA GBC商業精英國際挑戰賽報名開啓

李彥宏官宣第二屆“文心杯”創業大賽，最高投資獎勵達5000萬

最近又有哪些好玩、有創意的AI原生應用？

AI原生應用元年：不是大模型捲不起，而是“應用”更具性價比

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結