Intro
PPO在2017年提出後就刷新了continous control領域的SOTA記錄,並且成爲了OPENAI的default algorithm。雖然現在它已經不是領域的SOTA算法了,但因爲PPO易於部署而且迭代過程方差小,訓練較穩定,關鍵是使用方便,所以目前(2020.11)它還是大多數場景下的default algorithm。
PPO在2017年提出後就刷新了continous control領域的SOTA記錄,並且成爲了OPENAI的default algorithm。雖然現在它已經不是領域的SOTA算法了,但因爲PPO易於部署而且迭代過程方差小,訓練較穩定,關鍵是使用方便,所以目前(2020.11)它還是大多數場景下的default algorithm。