Day 2247:学习
(1)强化学习会试错探索,它通过探索环境来获取对环境的理解。
(2)强化学习智能体会从环境中获得延迟的奖励。
(3)在强化学习的训练过程中,时间非常重要。因为我们得到的是有时间关联的数据(sequential data),而不是独立同分布的数据。在机器学习中,如果观测数据有非常强的关联,会使得训练非常不稳定。这也是为什么在监督学习中,我们希望数据尽量满足独立同分布,这样就可以消除数据之间的相关性。
(4)智能体的动作会影响它随后得到的数据,这一点是非常重要的。在训练智能体的过程中,很多时候我们也是通过正在学习的智能体与环境交互来得到数据的。所以如果在训练过程中,智能体不能保持稳定,就会使我们采集到的数据非常糟糕。我们通过数据来训练智能体,如果数据有问题,整个训练过程就会失败。所以在强化学习中一个非常重要的问题就是,怎么让智能体的动作一直稳定地提升。
(2)强化学习智能体会从环境中获得延迟的奖励。
(3)在强化学习的训练过程中,时间非常重要。因为我们得到的是有时间关联的数据(sequential data),而不是独立同分布的数据。在机器学习中,如果观测数据有非常强的关联,会使得训练非常不稳定。这也是为什么在监督学习中,我们希望数据尽量满足独立同分布,这样就可以消除数据之间的相关性。
(4)智能体的动作会影响它随后得到的数据,这一点是非常重要的。在训练智能体的过程中,很多时候我们也是通过正在学习的智能体与环境交互来得到数据的。所以如果在训练过程中,智能体不能保持稳定,就会使我们采集到的数据非常糟糕。我们通过数据来训练智能体,如果数据有问题,整个训练过程就会失败。所以在强化学习中一个非常重要的问题就是,怎么让智能体的动作一直稳定地提升。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
10分钟搞定Mysql主从部署配置
zer0black
2024-05-17 14:31:12
无法AC,关于使用fgets碰到的问题——末尾多一个换行符
Danlis
2024-05-17 14:30:52
lightdb秒级增加列和删除列(not null带默认值)
zhjh256
2024-05-17 14:28:42
lightdb mysql 8.0兼容之不可见主键
zhjh256
2024-05-17 14:28:42
lightdb数据库超时相关控制参数
zhjh256
2024-05-17 14:28:42
如何使用 JS 判断用户是否处于活跃状态
劉漢貴
2024-05-17 14:26:51
使用 JS 实现在浏览器控制台打印图片 console.image()
劉漢貴
2024-05-17 14:26:51
基于Ubuntu-22.04安装K8s-v1.28.2实验(四)使用域名访问网站应用
hiningrise
2024-05-17 14:25:27
Flink的State
人不瘋狂枉一生
2024-05-17 14:23:00
ASP.NET Core Web中使用AutoMapper进行对象映射
追逐時光
2024-05-17 14:22:00
第四节:MySQL主从集群搭建、扩容与数据迁移、半同步复制详解
一. 二. 三. ! 作 者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com
Yaopengfei
2024-05-17 14:21:40
RDLC降低使用内存
煙臺西炮臺
2024-05-17 14:21:20
❤️🔥 Solon Cloud Event 新的事务特性与应用
劉之西東
2024-05-17 14:21:09
AI-FastGPT安装
2018
2024-05-17 14:14:58