《Text-to-Speech Synthesis》 阅读笔记 2 语音与写作 大声朗读 Text-to-Speech 的关键挑战

匆匆读完第三章《The text-to-speech Problem》,下面是基本内容笔记。

语音与写作

  • 语音和写作这二者都是一种可以解码语言消息的信号
  • 他们主要的区别是写作主要被用来记录消息,它比语音更贴近消息本身。
  • 大多数的写作是被用来默读,如果它被大声读出来,可能会带来困难。
  • 不是所有的写作用来解码语言信息,他也可以解码其他符号系统,比如数学符号。

大声朗读

  • 很大程度来说,大声将文字内容朗读出来,就是一个这样的过程:即先将书面信号解码为抽象的消息,然后再重新编码为语音信号。

  • 在很多情况下,韵律信息是不需要的。但是其他更复杂的方法中,生成韵律信息将使得消息的解码更为准确。

  • 在普通形式的框架之下,我们的TTS系统有两个基本模块:

    • 文本分析:一个从文本信息找到信息的解码过程。
    • 语音合成:一个从信息创造信号的编码过程。

Text-to-Speech 的关键挑战

  • 任何一个TTS系统都需要面对如下四个挑战:

    1. 文本的符号分类。
    2. 自然语言文本的解码
    3. 生成自然地,听起来像人类的语音。
    4. 生成易于理解的语音。
  • 还有目前,以及将来将会出现的两大挑战:

    1. 生成情感的增强的韵律。
    2. 将听者的处境和需求考虑在内的说话方式。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章