Proximal Policy Optimization(PPO)算法 / 2017

Intro

PPO在2017年提出後就刷新了continous control領域的SOTA記錄,並且成爲了OPENAI的default algorithm。雖然現在它已經不是領域的SOTA算法了,但因爲PPO易於部署而且迭代過程方差小,訓練較穩定,關鍵是使用方便,所以目前(2020.11)它還是大多數場景下的default algorithm。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章