強化學習無痛上手筆記第1課


書名: Reinforcement Learning State-of-the-Art
筆者簡介:一名學生

state and action

在這裏插入圖片描述

transition function

在這裏插入圖片描述

reward function

在這裏插入圖片描述

Markov Decision Process

在這裏插入圖片描述
在這裏插入圖片描述

policy

在這裏插入圖片描述

強化學習的基本流程

在這裏插入圖片描述

Optimality Criteria and Discounting

Before we can talk about algorithms for computing optimal policies, we have to define what that means. That is, we have to define what the model of optimality is.
在這裏插入圖片描述

Value Functions and Bellman Equations

A value function represents an estimate how good it is for the agent to be in a certain state (or how good it is to perform a certain action in that state). The notion of how good is expressed in terms of an optimality criterion, i.e. in terms of the expected return.
在這裏插入圖片描述

greedy policy

在這裏插入圖片描述

Policy Improvement——Fundamental DP Algorithms

Algorithm1

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

Algorithm2

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章