【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

  所谓PPO(ProximalPolicyOptimization),就是在策略梯度的基础上,使其可以具有Off-Policy的学习能力,同时保证动作执行者和学习者之间差距不要太大,稳扎稳打。

1.Policy Gradient

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
增加一个衰减discount
在这里插入图片描述

在这里插入图片描述

2.PPO(ProximalPolicyOptimization)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

参考:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章