百度AI產品與應用學習路線之語音技術(百度雲智學院學習筆記)

原創

2020-04-20 02:45

運用百度語音技術API完成語音識別與合成項目開發

百度語音技術簡介

基本的語音交互流程:

語音識別效果不好的三大原因

輸入語音:

聲學匹配:

文本匹配:

優化方法

迭代優化:

語音喚醒:

語音喚醒的設計及影響因素:

聲紋識別:

聲紋識別的設計及影響因素:

語音合成:

基於深度學習的語音合成訓練:

語音合成的設計及影響因素:

語音自訓練平臺接入流程

語音自訓練平臺鏈接:
https://ai.baidu.com/tech/smartasr

主要是數據集的配置,訓練是全自動的:

語音文件格式要求

16k 16bit單聲道pcm/wav文件
8k 16bit 單聲道pcm/wav文件(客服場景) ;
音頻文件名請不要包含中文、特殊符號、空格等字符;
所有音頻需打包壓縮爲zip文件格式後上傳, zip大小不超過100M,解壓後單個音頻大小不超過150M

標註文件格式要求

標註文件內容應與音頻文件相對應的內容一致(單條音頻對應文本長度;不超過5000字);
標註文件格式應爲txt格式，GBK編碼;
標註tx(文本中，由音頻名稱、標註內容兩部分構成,用"tab"區隔，帶後綴或不帶後綴均可，以下爲格式示例:
01.pcm (用tab鍵換列)今天天氣真不錯。

上傳數據集:

選擇基礎模型:

在訓練模型前,我們需要上傳熱詞和句篇:

這裏的熱詞和句篇相當於訓練集:

熱詞記得選擇gbk編碼:

下面等待訓練結束:

訓練結束後可以查看訓練結果,進行迭代訓練或者是模型上線:

語音識別和喚醒接入流程

開發流程:

下面是語音識別的開發文檔:
https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre

語音喚醒的開發文檔:
https://ai.baidu.com/ai-doc/SPEECH/Vk38lyr75

語音基礎介紹與場景應用

能力及應用:

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

向量數據庫引領 AI 創新——Zilliz 亮相 2024 亞馬遜雲科技中國峯會

2024年5月29日，亞馬遜雲科技中國峯會在上海召開，此次峯會聚集了來自全球各地的科技領袖、行業專家和創新企業，探討雲計算、大數據、人工智能等前沿技術的發展趨勢和應用場景。作爲領先的向量數據庫技術公司，Zilliz 在本次峯會上展示了最新的

2024-05-30 21:25:17

2024年國內最全面最前沿人工智能理論和實踐資料

引言【導讀】2024第11屆全球互聯網架構大會圓滿結束。會議邀請了100餘位行業內的領軍人物和革新者，大會通過主題演講、實踐案例分享，以及前瞻性的技術討論，探索AI技術的邊界。(最新AI-大模型獲取地址點擊領取) 近日

2024-05-29 22:52:52

使用 Spring Cloud Alibaba AI 構建 RAG 應用

作者：姬世文背景介紹 RAG（Retrieval Augmented Generation）檢索增強生成（RAG）是一種用於將數據與人工智能模型集成的技術。在 RAG 工作流程中，第一步將文檔數據加載到矢量數據庫（例如 Redis）中。

2024-05-27 21:13:51

Prompt Tuning：大模型微調實戰

隨着深度學習技術的不斷髮展，大模型在各種任務中取得了顯著的成果。然而，大模型的訓練需要大量的數據和算力，導致在實際應用中受到限制。爲了解決這個問題，研究者們提出了微調的方法，即使用預訓練模型在少量數據上進行訓練，使其適應特定的任務。在Pr

2024-06-03 12:14:42

走進京東“卓越研效架構師”首期研習營圓滿收官

五月的北京，春深半夏，花開滿城。由全國雲計算技術行業產教融合共同體牽頭，攜手工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會以及京東雲共同主辦的“走進京東——卓越研效架構師”研習營，於5月17-18日和24-26日在北京京東

2024-05-31 23:55:49

基於Fluid與JindoCache的大模型訓練加速實踐

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

24小時熱門文章

最新文章

最新評論文章