匆匆讀完第三章《The text-to-speech Problem》,下面是基本內容筆記。
語音與寫作
- 語音和寫作這二者都是一種可以解碼語言消息的信號
- 他們主要的區別是寫作主要被用來記錄消息,它比語音更貼近消息本身。
- 大多數的寫作是被用來默讀,如果它被大聲讀出來,可能會帶來困難。
- 不是所有的寫作用來解碼語言信息,他也可以解碼其他符號系統,比如數學符號。
大聲朗讀
很大程度來說,大聲將文字內容朗讀出來,就是一個這樣的過程:即先將書面信號解碼爲抽象的消息,然後再重新編碼爲語音信號。
在很多情況下,韻律信息是不需要的。但是其他更復雜的方法中,生成韻律信息將使得消息的解碼更爲準確。
-
在普通形式的框架之下,我們的TTS系統有兩個基本模塊:
- 文本分析:一個從文本信息找到信息的解碼過程。
- 語音合成:一個從信息創造信號的編碼過程。
Text-to-Speech 的關鍵挑戰
-
任何一個TTS系統都需要面對如下四個挑戰:
- 文本的符號分類。
- 自然語言文本的解碼
- 生成自然地,聽起來像人類的語音。
- 生成易於理解的語音。
-
還有目前,以及將來將會出現的兩大挑戰:
- 生成情感的增強的韻律。
- 將聽者的處境和需求考慮在內的說話方式。