強化學習(8):Asynchronous Advantage Actor-Critic(A3C)算法

本文主要講解有關 A3C 算法的相關內容。

一、A3C 算法

直接引用莫煩老師的話來介紹 A3C 算法:Google DeepMind 提出的一種解決 Actor-Critic 不收斂問題的算法。它會創建多個並行的環境,讓多個擁有副結構的 agent 同時在這些並行環境上更新主結構中的參數。並行中的 agent 們互不干擾,而主結構的參數更新受到副結構提交更新的不連續性干擾,所以更新的相關性被降低,收斂性提高。

除了上述提到的之外,在 A3C 算法中擁有副結構的 agent 還會定期地獲取主結構的參數以更新自己的策略。A3C 算法實際上就是將 Actor-Critic 放在了多個線程中進行同步訓練。可以想象成幾個人同時在玩一樣的遊戲,而他們玩遊戲的經驗都會同步上傳到一箇中央大腦,然後他們又從中央大腦中獲取最新的玩遊戲方法。

下圖是 A3C 網絡結構的示意圖:

A3C

二、A3C 算法流程

A3C

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章