《Text-to-Speech Synthesis》 閱讀筆記 2 語音與寫作 大聲朗讀 Text-to-Speech 的關鍵挑戰

匆匆讀完第三章《The text-to-speech Problem》,下面是基本內容筆記。

語音與寫作

  • 語音和寫作這二者都是一種可以解碼語言消息的信號
  • 他們主要的區別是寫作主要被用來記錄消息,它比語音更貼近消息本身。
  • 大多數的寫作是被用來默讀,如果它被大聲讀出來,可能會帶來困難。
  • 不是所有的寫作用來解碼語言信息,他也可以解碼其他符號系統,比如數學符號。

大聲朗讀

  • 很大程度來說,大聲將文字內容朗讀出來,就是一個這樣的過程:即先將書面信號解碼爲抽象的消息,然後再重新編碼爲語音信號。

  • 在很多情況下,韻律信息是不需要的。但是其他更復雜的方法中,生成韻律信息將使得消息的解碼更爲準確。

  • 在普通形式的框架之下,我們的TTS系統有兩個基本模塊:

    • 文本分析:一個從文本信息找到信息的解碼過程。
    • 語音合成:一個從信息創造信號的編碼過程。

Text-to-Speech 的關鍵挑戰

  • 任何一個TTS系統都需要面對如下四個挑戰:

    1. 文本的符號分類。
    2. 自然語言文本的解碼
    3. 生成自然地,聽起來像人類的語音。
    4. 生成易於理解的語音。
  • 還有目前,以及將來將會出現的兩大挑戰:

    1. 生成情感的增強的韻律。
    2. 將聽者的處境和需求考慮在內的說話方式。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章