運用百度語音技術API完成語音識別與合成項目開發
百度語音技術簡介
基本的語音交互流程:
輸入語音:
聲學匹配:
文本匹配:
迭代優化:
語音喚醒:
語音喚醒的設計及影響因素:
聲紋識別:
聲紋識別的設計及影響因素:
語音合成:
基於深度學習的語音合成訓練:
語音合成的設計及影響因素:
語音自訓練平臺接入流程
語音自訓練平臺鏈接:
https://ai.baidu.com/tech/smartasr
主要是數據集的配置,訓練是全自動的:
16k 16bit單聲道pcm/wav文件
8k 16bit 單聲道pcm/wav文件(客服場景) ;
音頻文件名請不要包含中文、特殊符號、空格等字符;
所有音頻需打包壓縮爲zip文件格式後上傳, zip大小不超過100M,解壓後單個音頻大小不超過150M
標註文件內容應與音頻文件相對應的內容一致(單條音頻對應文本長度;不超過5000字);
標註文件格式應爲txt格式,GBK編碼;
標註tx(文本中,由音頻名稱、標註內容兩部分構成,用"tab"區隔,帶後綴或不帶後綴均可,以下爲格式示例:
01.pcm (用tab鍵換列)今天天氣真不錯。
上傳數據集:
選擇基礎模型:
在訓練模型前,我們需要上傳熱詞和句篇:
這裏的熱詞和句篇相當於訓練集:
熱詞記得選擇gbk編碼:
下面等待訓練結束:
訓練結束後可以查看訓練結果,進行迭代訓練或者是模型上線:
語音識別和喚醒接入流程
開發流程:
下面是語音識別的開發文檔:
https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre
語音喚醒的開發文檔:
https://ai.baidu.com/ai-doc/SPEECH/Vk38lyr75
語音基礎介紹與場景應用
能力及應用: