《Text-to-Speech Synthesis》阅读笔记 2 语音与写作大声朗读 Text-to-Speech 的关键挑战

原創

2020-06-16 10:16

匆匆读完第三章《The text-to-speech Problem》,下面是基本内容笔记。

语音与写作

语音和写作这二者都是一种可以解码语言消息的信号
他们主要的区别是写作主要被用来记录消息，它比语音更贴近消息本身。
大多数的写作是被用来默读，如果它被大声读出来，可能会带来困难。
不是所有的写作用来解码语言信息，他也可以解码其他符号系统，比如数学符号。

大声朗读

很大程度来说，大声将文字内容朗读出来，就是一个这样的过程：即先将书面信号解码为抽象的消息，然后再重新编码为语音信号。
在很多情况下，韵律信息是不需要的。但是其他更复杂的方法中，生成韵律信息将使得消息的解码更为准确。
在普通形式的框架之下，我们的TTS系统有两个基本模块：
- 文本分析：一个从文本信息找到信息的解码过程。
- 语音合成：一个从信息创造信号的编码过程。

Text-to-Speech 的关键挑战

任何一个TTS系统都需要面对如下四个挑战：
1. 文本的符号分类。
2. 自然语言文本的解码
3. 生成自然地，听起来像人类的语音。
4. 生成易于理解的语音。
还有目前，以及将来将会出现的两大挑战：
1. 生成情感的增强的韵律。
2. 将听者的处境和需求考虑在内的说话方式。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

数据保护技巧揭秘：为导出文件添加防护密码的实用指南

一、前言當涉及到敏感數據的導出和共享時，數據安全是至關重要的。在現代數字化時代，保護個人和機密信息免受未經授權的訪問和竊取是每個組織和個人的首要任務之一。在這種背景下，葡萄城的純前端表格控件 SpreadJS 提供的加密功能爲用戶提供了一

葡萄城技術團隊

2024-06-03 14:30:40

图床软件Minio oss

docker run -p 9000:9000 -p 9001:9001 --name minio -d --restart=always -e "MINIO_ACCESS_KEY=admin" -e "MINIO_SECRET_KEY=a

2024-06-03 14:25:00

一个docker容器暴露多个端口

how to configure multiple domain (virtual host) and multiple virtual port # start the nginx proxy docker run -d -p 80:80

2024-06-03 14:25:00

微软官方开源免费的Blazor UI组件库 - Fluent UI Blazor

前言今天大姚給大家分享一個由微軟官方開源（MIT License）、免費的Blazor UI組件庫：Fluent UI Blazor。全面的ASP.NET Core Blazor簡介和快速入門 Fluent UI Blazor介紹

2024-06-03 14:22:00

再也不用为找.NET相关的项目和框架发愁了

前言最近經常在DotNetGuide技術社區交流羣裏看到有小夥伴問：有什麼好用的.NET定時任務調度框架推薦的？有什麼好的WPF/WinForm/Blazor圖表庫推薦的？.NET好用的後臺管理框架有推薦的嗎？大家平時都是怎麼找.NET

2024-06-03 14:22:00

leetcode 60 排列序列

排列序列已解答困難相關標籤相關企業給出集合 [1,2,3,...,n]，其所有元素共有 n! 種排列。按大小順序列出所有排列情況，並一一標記，當 n = 3 時, 所有排列如下： "123" "132" "213" "231

張博的博客

2024-06-03 14:19:49

k8S的kube-proxy相关ipvs

ipvsadm命令沒想到自己之前二進制部署的，也是ipvs代理模式 node2上沒有裝ipvs，也看不了一些ipvs規則 node1上安裝ipvsadm,然後就可以看的k8s添加的規則了 yum install ipvsadm

2024-06-03 14:13:49

零基础写框架：从零设计一个模块化和自动服务注册框架

關於從零設計 .NET 開發框架作者：癡者工良教程說明：倉庫地址：https://github.com/whuanle/maomi 文檔地址：https://maomi.whuanle.cn 作者博客： https://www.whu

2024-06-03 14:13:38

英语背单词专四词汇 2024年06月 ChatGPT

2024-06-03 index word pronunciation parts of speech explanation translation in Chinese 1 fuss /fʌs/ noun/verb unnec

2024-06-03 14:06:57

背单词首字母 2024年06月

2024-06-302024-06-292024-06-282024-06-272024-06-262024-06-252024-06-242024-06-232024-06-222024-06-212024-06-202024-06-19

2024-06-03 14:06:57

初探富文本之基于虚拟滚动的大型文档性能优化方案

初探富文本之基於虛擬滾動的大型文檔性能優化方案虛擬滾動是一種優化長列表性能的技術，其通過按需渲染列表項來提高瀏覽器運行效率。具體來說，虛擬滾動只渲染用戶瀏覽器視口部分的文檔數據，而不是整個文檔結構，其核心實現根據可見區域高度和容器的滾動位

2024-06-03 14:05:17

.Net 中间件 - 新开源代码生成器 -ReZero

ReZero AP ReZero是一款.NET中間件：一款通過界面操作就能生成API , 可以集成到任何.NET6+ API項目,無破壞性，也可讓非.NET用戶使用exe文件 ReZero生成器功能簡介 1、表文檔導出：支持目錄導航

2024-06-03 14:03:26

Microsoft.Extensions.DependencyInjection会自动释放通过DI（依赖注入）创建的对象

Microsoft.Extensions.DependencyInjection中（下面簡稱DI），在調用ServiceProvider和IServiceScope對象的Dispose()方法時，也會自動調用ServiceProvider和

2024-06-03 14:03:06

为什么以及如何要进行架构设计权衡？

對於“軟件架構”這個詞有很多定義和含義。而且，“軟件開發”、“軟件設計”和“軟件架構”這三個概念之間存在相當大的重疊，它們在許多方面相互交融。從核心上看，可以將軟件架構視爲在構建應用程序時，對不同選擇進行權衡的學科。 1 爲什麼需要權衡以

路人111122233

2024-06-03 14:00:36

如何使用Node.js、TypeScript和Express实现RESTful API服务

Node.js是一個基於 Chrome V8 引擎的 JavaScript 運行環境。Node.js 使用了一個事件驅動、非阻塞式 I/O 的模型,使其輕量又高效。Express是一個保持最小規模的靈活的 Node.js Web應用程序開發

2024-06-03 13:59:46

24小時熱門文章

最新文章

最新評論文章