强化学习无痛上手笔记第1课


书名: Reinforcement Learning State-of-the-Art
笔者简介:一名学生

state and action

在这里插入图片描述

transition function

在这里插入图片描述

reward function

在这里插入图片描述

Markov Decision Process

在这里插入图片描述
在这里插入图片描述

policy

在这里插入图片描述

强化学习的基本流程

在这里插入图片描述

Optimality Criteria and Discounting

Before we can talk about algorithms for computing optimal policies, we have to define what that means. That is, we have to define what the model of optimality is.
在这里插入图片描述

Value Functions and Bellman Equations

A value function represents an estimate how good it is for the agent to be in a certain state (or how good it is to perform a certain action in that state). The notion of how good is expressed in terms of an optimality criterion, i.e. in terms of the expected return.
在这里插入图片描述

greedy policy

在这里插入图片描述

Policy Improvement——Fundamental DP Algorithms

Algorithm1

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Algorithm2

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章