【學習筆記】PPO(Proximal Policy Optimization) - 李宏毅

  所謂PPO(ProximalPolicyOptimization),就是在策略梯度的基礎上,使其可以具有Off-Policy的學習能力,同時保證動作執行者和學習者之間差距不要太大,穩紮穩打。

1.Policy Gradient

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述
增加一個衰減discount
在這裏插入圖片描述

在這裏插入圖片描述

2.PPO(ProximalPolicyOptimization)

在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

參考:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章