所謂PPO(ProximalPolicyOptimization),就是在策略梯度的基礎上,使其可以具有Off-Policy的學習能力,同時保證動作執行者和學習者之間差距不要太大,穩紮穩打。
1.Policy Gradient
增加一個衰減discount
2.PPO(ProximalPolicyOptimization)
所謂PPO(ProximalPolicyOptimization),就是在策略梯度的基礎上,使其可以具有Off-Policy的學習能力,同時保證動作執行者和學習者之間差距不要太大,穩紮穩打。
增加一個衰減discount
前言 由於實驗室要求每週PPT分享彙報,在這一過程中,體會到新手需要花費時間去整理論文思路,耗時較長,因此將相關PPT上傳,供有需要的遊客查閱。 下載網址:Human-level.ppt …