本文主要講解有關 A3C 算法的相關內容。
一、A3C 算法
直接引用莫煩老師的話來介紹 A3C 算法:Google DeepMind 提出的一種解決 Actor-Critic
不收斂問題的算法。它會創建多個並行的環境,讓多個擁有副結構的 agent 同時在這些並行環境上更新主結構中的參數。並行中的 agent 們互不干擾,而主結構的參數更新受到副結構提交更新的不連續性干擾,所以更新的相關性被降低,收斂性提高。
除了上述提到的之外,在 A3C 算法中擁有副結構的 agent 還會定期地獲取主結構的參數以更新自己的策略。A3C 算法實際上就是將 Actor-Critic 放在了多個線程中進行同步訓練。可以想象成幾個人同時在玩一樣的遊戲,而他們玩遊戲的經驗都會同步上傳到一箇中央大腦,然後他們又從中央大腦中獲取最新的玩遊戲方法。
下圖是 A3C 網絡結構的示意圖: