【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.5】連續動作空間上求解RL

一、學習內容

5.連續動作空間上求解RL

5.1連續動作空間

離散和連續動作跟環境有關:

可分別採用隨機性策略和確定性策略:

實踐中可分別用sample函數和tanh函數:

DDPG(Deep Deterministic Policy Gradient)的來源:

DDPG可看做DQN的擴展版本,添加了策略網絡,使用了RL中的Actor-Critic架構

DQN有2條經驗的:target網絡,以及經驗回放

DDPG裏面也用了相同的方式來穩定訓練,算法如下:

5.2DDPG代碼與總結

DDPG的算法結構整體如下:

model文件中算法如下:

algorithm文件中算法如下:

1)critic網絡更新:

2)actor網絡更新:

2)target網絡更新:

agent文件中算法如下(這裏就不細說了,還是PARL的框架:)):

訓練過程(以CartPole爲例):

DDPG的總結如下:

5.3大作業與創意賽環境

這裏面主要展示一些RL常用的模擬環境,大家可以嘗試一下:)

1)PARL中的四軸飛行器環境(收斂時間大概7-8小時)

2)電梯環境

3)簡單彈跳和接球遊戲

4)簡單的遊戲

5)機械臂、股票預測、飛行器等環境

6)機械臂環境

7)交通燈信號控制環境

最後,回顧下課程大綱:

給了個後續學習的推薦材料:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章