强化学习导论笔记——第一章 介绍

什么是强化学习

强化学习的目标是如何将状态situation与动作action关联起来,以便取得最大的收益reward,即收益最大化。

监督学习supervised Learning指的是从外部“监督者supervisor”提供的样本samples中提供的样本中学习,但交互式问题interactive problems通常无法从样本中穷举出来。

对于强化学习而言,探索exploration与利用exploitation的平衡是非常重要的。利用指的是根据当前已经取得的信息使得收益最大化,而探索是从未知中寻求未来可能的更优选择。作者在第二章中重点讨论了探索与利用的平衡策略,这些策略在后续的算法中有体现。

几个强化学习的例子:
下棋、炼油的成本质量控制,刚出生的羚羊挣扎地学会奔跑,垃圾清理机器人在垃圾搜索和充电之间作出选择,一次日常的早餐制作。

强化学习的几个要素

强化学习由这几个要素构成:策略policy,回报reward函数,价值value函数以及可选的环境模型model。

策略指的是在某时刻如何行动,即根据所处的状态来决定如何行动。策略的优化是强化学习的核心问题。

回报函数定义了强化学习问题的优化目标。长期回报的最大化是学习器的唯一目标。

价值函数与回报函数的不同之处在于,回报函数通常是一个即时收益,而价值函数反映了该状态从长远来看的回报如何。没有回报就没有价值。

环境模型用于对环境的精确描述,由于强化学习问题并不总能取得这样的信息,因此是可选的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章