所谓PPO(ProximalPolicyOptimization),就是在策略梯度的基础上,使其可以具有Off-Policy的学习能力,同时保证动作执行者和学习者之间差距不要太大,稳扎稳打。
1.Policy Gradient
增加一个衰减discount
2.PPO(ProximalPolicyOptimization)
所谓PPO(ProximalPolicyOptimization),就是在策略梯度的基础上,使其可以具有Off-Policy的学习能力,同时保证动作执行者和学习者之间差距不要太大,稳扎稳打。
增加一个衰减discount
前言 由於實驗室要求每週PPT分享彙報,在這一過程中,體會到新手需要花費時間去整理論文思路,耗時較長,因此將相關PPT上傳,供有需要的遊客查閱。 下載網址:Human-level.ppt …