百度AI產品與應用學習路線之語音技術(百度雲智學院學習筆記)

運用百度語音技術API完成語音識別與合成項目開發

  1. 百度語音技術簡介
  2. 語音自訓練平臺接入流程
  3. 語音識別和喚醒接入流程
  4. 語音基礎介紹與場景應用

在這裏插入圖片描述

百度語音技術簡介

基本的語音交互流程:
在這裏插入圖片描述

語音識別效果不好的三大原因

輸入語音:
在這裏插入圖片描述
聲學匹配:
在這裏插入圖片描述
文本匹配:
在這裏插入圖片描述

優化方法

迭代優化:
在這裏插入圖片描述
語音喚醒:
在這裏插入圖片描述
語音喚醒的設計及影響因素:
在這裏插入圖片描述
聲紋識別:
在這裏插入圖片描述
聲紋識別的設計及影響因素:
在這裏插入圖片描述
語音合成:
在這裏插入圖片描述
基於深度學習的語音合成訓練:
在這裏插入圖片描述
語音合成的設計及影響因素:
在這裏插入圖片描述

語音自訓練平臺接入流程

語音自訓練平臺鏈接:
https://ai.baidu.com/tech/smartasr

在這裏插入圖片描述
主要是數據集的配置,訓練是全自動的:

語音文件格式要求

16k 16bit單聲道pcm/wav文件
8k 16bit 單聲道pcm/wav文件(客服場景) ;
音頻文件名請不要包含中文、特殊符號、空格等字符;
所有音頻需打包壓縮爲zip文件格式後上傳, zip大小不超過100M,解壓後單個音頻大小不超過150M

標註文件格式要求

標註文件內容應與音頻文件相對應的內容一致(單條音頻對應文本長度;不超過5000字);
標註文件格式應爲txt格式,GBK編碼;
標註tx(文本中,由音頻名稱、標註內容兩部分構成,用"tab"區隔,帶後綴或不帶後綴均可,以下爲格式示例:
01.pcm (用tab鍵換列)今天天氣真不錯。

在這裏插入圖片描述
上傳數據集:
在這裏插入圖片描述
選擇基礎模型:
在這裏插入圖片描述
在訓練模型前,我們需要上傳熱詞和句篇:
在這裏插入圖片描述
這裏的熱詞和句篇相當於訓練集:
在這裏插入圖片描述
熱詞記得選擇gbk編碼:
在這裏插入圖片描述
下面等待訓練結束:
在這裏插入圖片描述
訓練結束後可以查看訓練結果,進行迭代訓練或者是模型上線:
在這裏插入圖片描述

語音識別和喚醒接入流程

開發流程:
在這裏插入圖片描述
下面是語音識別的開發文檔:
https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre

語音喚醒的開發文檔:
https://ai.baidu.com/ai-doc/SPEECH/Vk38lyr75

語音基礎介紹與場景應用

能力及應用:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章