深度強化學習DQN

DQN模型

在這裏插入圖片描述
輸入的是處理後的連續幀圖像(降維幅度圖),經過卷積層層後接兩個全連接層,輸出是所有動作的Q值。

算法

1. NIPS 2013

在這裏插入圖片描述

2. Nature 2015

2.1 算法

在這裏插入圖片描述

2.2 流程圖

在這裏插入圖片描述
在這裏插入圖片描述

3. 不足

由於Replay Memory原因:

  1. 無法應用於連續動作控制;
  2. 只能處理只需短時記憶問題,無法處理需長時記憶問題(後續研究提出了使用LSTM等改進方法);
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章