强化学习第二版(翻译)第一章 导论 第六节 小结 1.6 Summary

    强化学习是一种理解和自动进行目标导向学习和决策的计算方法。它与其他计算方法不同之处在于它强调了代理与环境的直接交互学习,而不依赖于监督或完整的环境模型。在我们看来,强化学习是第一个认真处理在学习与环境的互动时产生的计算问题,以实现长期目标的第一个领域。

    强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间的交互作用,包括状态、动作和收益。这个框架用简单的方法来表示人工智能问题的基本特征。这些特征包括因果性、不确定性和不确定性,以及目标的存在性。

    价值和价值函数的概念是我们在本书中所考虑的大多数强化学习方法的主要特征。我们认为,在政策空间中,价值函数对于有效搜索是非常重要的。价值函数的使用区分了强化学习方法和在整个策略的标量评估指导下搜索策略空间的进化方法。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章