PPO算法詳解

PPO算法詳解

原創

2020-06-13 11:44

原文：Proximal Policy Optimization Algorithms [arXiv] [GitHub]

1. PPO算法思想

PPO算法是一種新型的Policy Gradient算法，Policy Gradient算法對步長十分敏感，但是又難以選擇合適的步長，在訓練過程中新舊策略的的變化差異如果過大則不利於學習。PPO提出了新的目標函數可以再多個訓練步驟實現小批量的更新，解決了Policy Gradient算法中步長難以確定的問題。其實TRPO也是爲了解決這個思想但是相比於TRPO算法PPO算法更容易求解。

2. Policy Gradient回顧

重新回顧一下Policy Gradient算法，Policy Gradient不通過誤差反向傳播，它通過觀測信息選出一個行爲直接進行反向傳播，當然出人意料的是他並沒有誤差，而是利用reward獎勵直接對選擇行爲的可能性進行增強和減弱，好的行爲會被增加下一次被選中的概率，不好的行爲會被減弱下次被選中的概率。

策略 $\tau$ 的回報期望： $\nabla R=E_{\tau p_\theta(\tau)}[R(\tau)\nabla\log p_\theta(\tau)]$

重要性採樣（Importance Sampling）:

$E_{xp}$

參考資源

[1] 【強化學習】PPO(Proximal Policy Optimization)近端策略優化算法
[2] Proximal Policy Optimization

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

1. PPO算法思想

2. Policy Gradient回顧

參考資源

【SQL進階】CASE語句的使用

npm error Cannot read properties of null (reading 'isDescendantOf')

CSDN博客寫作

Meta Learning資源學習列表

Python 可視化--Seaborn

什麼是人工智能？你需要知道的關於人工智能的一切

英語詞性介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結