《Text-to-Speech Synthesis》閱讀筆記 2 語音與寫作大聲朗讀 Text-to-Speech 的關鍵挑戰

原創

2020-06-16 10:16

匆匆讀完第三章《The text-to-speech Problem》,下面是基本內容筆記。

語音與寫作

語音和寫作這二者都是一種可以解碼語言消息的信號
他們主要的區別是寫作主要被用來記錄消息，它比語音更貼近消息本身。
大多數的寫作是被用來默讀，如果它被大聲讀出來，可能會帶來困難。
不是所有的寫作用來解碼語言信息，他也可以解碼其他符號系統，比如數學符號。

大聲朗讀

很大程度來說，大聲將文字內容朗讀出來，就是一個這樣的過程：即先將書面信號解碼爲抽象的消息，然後再重新編碼爲語音信號。
在很多情況下，韻律信息是不需要的。但是其他更復雜的方法中，生成韻律信息將使得消息的解碼更爲準確。
在普通形式的框架之下，我們的TTS系統有兩個基本模塊：
- 文本分析：一個從文本信息找到信息的解碼過程。
- 語音合成：一個從信息創造信號的編碼過程。

Text-to-Speech 的關鍵挑戰

任何一個TTS系統都需要面對如下四個挑戰：
1. 文本的符號分類。
2. 自然語言文本的解碼
3. 生成自然地，聽起來像人類的語音。
4. 生成易於理解的語音。
還有目前，以及將來將會出現的兩大挑戰：
1. 生成情感的增強的韻律。
2. 將聽者的處境和需求考慮在內的說話方式。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

京東面試：如何進行JVM調優？

JVM 調優是一個很大的話題，在回答“如何進行 JVM 調優？”之前，首先我們要回答一個更爲關鍵的問題，那就是，我們爲什麼要進行 JVM 調優？只有知道了爲什麼要進行 JVM 調優之後，你才能準確的回答出來如何進行 JVM 調優？要進行

Java中文社羣

2024-05-21 14:43:06

WinSW——將.exe文件註冊爲服務的一個工具

https://github.com/winsw/winsw

2024-05-21 14:34:55

Azure Service Principals ----- Azure 上最好保守的祕密的服務

一，引言　　Azure Service Principals 是 Azure Active Directory (AAD) 中的一種標識，代表應用程序，服務，自動化流程。Service Principals 支持各種 Azure 服務和資

2024-05-21 14:34:25

程序設計思路-球連球組成的羣

　　編碼設計有很多思路，都是在簡化映射實際問題時遇到的問題。　　之前和別人交流，得到一句“把它放在同一個地方好維護”，相同的功能只出現在一個地方。就會出現代碼的聚合設計，也就是一種通用的功能索引，或者說面向對象的思想。　　首先程序可以被

2024-05-21 14:32:55

Flink內存模型

之前聊Flink的slot時簡單提到過內存，Flink計算框架的內存大致分爲Flink使用的內存、Jvm使用的內存。Flink爲什麼不全使用JVM內存的原因是顯而易見的，作爲實時計算框架，JVM內存依賴GC自動回收一旦稍微慢一點，就會對

人不瘋狂枉一生

2024-05-21 14:32:45

Flink富函數

富函數是DataStream API提供的函數接口，Flink的函數都有它的Rich版本，它與其他函數不同的是，富函數可以獲取到運行環境上下文，初始化參數，擁有生命週期方法等，可通過它進行自定義複雜功能。我們常見的如RichMapFu

人不瘋狂枉一生

2024-05-21 14:32:45

YiShaAdmin：一款基於.NET Core Web + Bootstrap的企業級快速開發框架

前言今天大姚給大家分享一款基於.NET Core Web + Bootstrap的企業級快速後臺開發框架、權限管理系統，代碼簡單易懂、界面簡潔美觀（基於MIT License開源，免費可商用）：YiShaAdmin。項目官方介紹 YiS

2024-05-21 14:31:45

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

大家好，我是R哥。最近做 Java 面試輔導，有個兄弟面試美團，遇到一個特別有意思的問題：一萬個 if else 如何優化，有好的解決方案嗎？我看到這問題都有點懵逼，現實項目中怎麼可能會有 10000 個 if else 的代碼

2024-05-21 14:31:14

一種精度更高的hopf直線檢測策略, 一種高精度邊緣檢測方法.

#aaa是cv.read圖片. img = aaaa.copy() gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY) ret, binary = cv2.threshold(gray, 0, 25

張博的博客

2024-05-21 14:29:34

深入瞭解安全工具Vault、Vault根令牌和解封密鑰，詳細整理部署Vault的詳細步驟

一、深入瞭解安全工具Vault Vault是一種開源工具，用於安全地存儲、管理和控制訪問各種機密信息，如密碼、API令牌、安全配置和其他敏感數據。Vault使用強大的加密和安全管理技術來保護這些機密信息，併爲應用程序和服務提供安全的訪問

2024-05-21 14:23:34

keycloak~作爲第三方登錄的對接標準

當某些合作商希望把你的keycloak作爲他們的一種第三方登錄方式時，就像微信，google，github，使用你的keycloak上的賬戶資源時，你就需要考慮如何做一個開放的，標準的文檔了。一基本角色認證提供者：keycloak服

2024-05-21 14:22:24

hdu4027（線段樹區間操作）

Problem - 4027 (hdu.edu.cn)許多邪惡的戰艦在戰鬥前排成一排。我們的指揮官決定使用我們的祕密武器來消滅戰列艦。每艘戰列艦都可以標記爲耐力值。對於我們祕密武器的每一次攻擊，它都可能降低連續部分戰列艦的續航能力，使它們

2024-05-21 14:20:03

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

PPT是傳遞信息、進行彙報和推廣產品的重要工具。然而，有時我們需要將這些精心設計的PPT演示文稿發佈到網絡上，以便於更廣泛的訪問和分享。本文將介紹如何使用Python將PowerPoint文檔轉換爲網頁友好的HTML格式。包含兩個簡單示例：

2024-05-21 14:19:53

如何構建一個系統

假設有要處理的數據 A1 A2 A3 ... 你想要設計一個功能 F，這個F應該處理數據 Ai，那麼你需要編寫程序P=F，是的： O1 = F(A1) O2 = F(A2) O3 = F(A3) ... 如果寫了個F，一次就解決了，那就萬事

2024-05-21 14:18:13

172.22.56.0/22

172.22.56.0/22 56對應的二進制是00111000, 16+6=22。所以第三個byte的後面2位bit可以使用。 The IP address and subnet mask you provided, 172.22.5

2024-05-21 14:16:52

24小時熱門文章

最新文章

最新評論文章