一、學習內容
5.連續動作空間上求解RL
5.1連續動作空間
離散和連續動作跟環境有關:
可分別採用隨機性策略和確定性策略:
實踐中可分別用sample函數和tanh函數:
DDPG(Deep Deterministic Policy Gradient)的來源:
DDPG可看做DQN的擴展版本,添加了策略網絡,使用了RL中的Actor-Critic架構
DQN有2條經驗的:target網絡,以及經驗回放
DDPG裏面也用了相同的方式來穩定訓練,算法如下:
5.2DDPG代碼與總結
DDPG的算法結構整體如下:
model文件中算法如下:
algorithm文件中算法如下:
1)critic網絡更新:
2)actor網絡更新:
2)target網絡更新:
agent文件中算法如下(這裏就不細說了,還是PARL的框架:)):
訓練過程(以CartPole爲例):
DDPG的總結如下:
5.3大作業與創意賽環境
這裏面主要展示一些RL常用的模擬環境,大家可以嘗試一下:)
1)PARL中的四軸飛行器環境(收斂時間大概7-8小時)
2)電梯環境
3)簡單彈跳和接球遊戲
4)簡單的遊戲
5)機械臂、股票預測、飛行器等環境
6)機械臂環境
7)交通燈信號控制環境
最後,回顧下課程大綱:
給了個後續學習的推薦材料: