原文:Proximal Policy Optimization Algorithms [arXiv] [GitHub]
1. PPO算法思想
PPO算法是一種新型的Policy Gradient算法,Policy Gradient算法對步長十分敏感,但是又難以選擇合適的步長,在訓練過程中新舊策略的的變化差異如果過大則不利於學習。PPO提出了新的目標函數可以再多個訓練步驟實現小批量的更新,解決了Policy Gradient算法中步長難以確定的問題。其實TRPO也是爲了解決這個思想但是相比於TRPO算法PPO算法更容易求解。
2. Policy Gradient回顧
重新回顧一下Policy Gradient算法,Policy Gradient不通過誤差反向傳播,它通過觀測信息選出一個行爲直接進行反向傳播,當然出人意料的是他並沒有誤差,而是利用reward獎勵直接對選擇行爲的可能性進行增強和減弱,好的行爲會被增加下一次被選中的概率,不好的行爲會被減弱下次被選中的概率。
策略的回報期望:
重要性採樣(Importance Sampling):
參考資源
[1] 【強化學習】PPO(Proximal Policy Optimization)近端策略優化算法
[2] Proximal Policy Optimization