DQN模型
輸入的是處理後的連續幀圖像(降維幅度圖),經過卷積層層後接兩個全連接層,輸出是所有動作的Q值。
算法
1. NIPS 2013
2. Nature 2015
2.1 算法
2.2 流程圖
3. 不足
由於Replay Memory原因:
- 無法應用於連續動作控制;
- 只能處理只需短時記憶問題,無法處理需長時記憶問題(後續研究提出了使用LSTM等改進方法);
輸入的是處理後的連續幀圖像(降維幅度圖),經過卷積層層後接兩個全連接層,輸出是所有動作的Q值。
由於Replay Memory原因:
基礎知識 ● 下列屬於 CPU 中算術邏輯單元的部件是(1)。 (1)A、程序計數器 B、加法器 C、指令寄存器 D、指令譯碼器 參考答案:(1)B ● 在 CPU 和主存之間設置
一. 二. 三. ! 作 者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com