PPO算法詳解

原文:Proximal Policy Optimization Algorithms [arXiv] [GitHub]

1. PPO算法思想

PPO算法是一種新型的Policy Gradient算法,Policy Gradient算法對步長十分敏感,但是又難以選擇合適的步長,在訓練過程中新舊策略的的變化差異如果過大則不利於學習。PPO提出了新的目標函數可以再多個訓練步驟實現小批量的更新,解決了Policy Gradient算法中步長難以確定的問題。其實TRPO也是爲了解決這個思想但是相比於TRPO算法PPO算法更容易求解。

2. Policy Gradient回顧

重新回顧一下Policy Gradient算法,Policy Gradient不通過誤差反向傳播,它通過觀測信息選出一個行爲直接進行反向傳播,當然出人意料的是他並沒有誤差,而是利用reward獎勵直接對選擇行爲的可能性進行增強和減弱,好的行爲會被增加下一次被選中的概率,不好的行爲會被減弱下次被選中的概率。

策略τ\tau的回報期望:R=Eτpθ(τ)[R(τ)logpθ(τ)]\nabla R=E_{\tau p_\theta(\tau)}[R(\tau)\nabla\log p_\theta(\tau)]

重要性採樣(Importance Sampling):

ExpE_{xp}

參考資源

[1] 【強化學習】PPO(Proximal Policy Optimization)近端策略優化算法
[2] Proximal Policy Optimization

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章