强化学习导论笔记——第一章介绍

原創

2018-11-30 14:54

什么是强化学习

强化学习的目标是如何将状态situation与动作action关联起来，以便取得最大的收益reward，即收益最大化。

监督学习supervised Learning指的是从外部“监督者supervisor”提供的样本samples中提供的样本中学习，但交互式问题interactive problems通常无法从样本中穷举出来。

对于强化学习而言，探索exploration与利用exploitation的平衡是非常重要的。利用指的是根据当前已经取得的信息使得收益最大化，而探索是从未知中寻求未来可能的更优选择。作者在第二章中重点讨论了探索与利用的平衡策略，这些策略在后续的算法中有体现。

几个强化学习的例子：
下棋、炼油的成本质量控制，刚出生的羚羊挣扎地学会奔跑，垃圾清理机器人在垃圾搜索和充电之间作出选择，一次日常的早餐制作。

强化学习由这几个要素构成：策略policy，回报reward函数，价值value函数以及可选的环境模型model。

策略指的是在某时刻如何行动，即根据所处的状态来决定如何行动。策略的优化是强化学习的核心问题。

回报函数定义了强化学习问题的优化目标。长期回报的最大化是学习器的唯一目标。

价值函数与回报函数的不同之处在于，回报函数通常是一个即时收益，而价值函数反映了该状态从长远来看的回报如何。没有回报就没有价值。

环境模型用于对环境的精确描述，由于强化学习问题并不总能取得这样的信息，因此是可选的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.