原创 強化學習系列(1):強化學習(Reinforcement Learning)

強化學習前世今生也可以直接查看本博主強化學習專欄的簡介:https://blog.csdn.net/gsww404/article/details/79763003 [直接點擊查看完整版]如今機器學習發展的如此迅猛,各類算法層出不羣,特別

原创 深度強化學習系列(5): Double Q-Learning原理詳解

論文地址: https://papers.nips.cc/paper/3964-double-q-learning.pdf 本論文由DeepMind發表於2015年NIPS的一篇論文,作者Hasselt。 前言: Q-Lear

原创 深度強化學習系列: 最全深度強化學習資料

關於這項工作: 本工作是一項由深度強化學習實驗室(Deep Reinforcement Learning Laboratory, DeepRL-Lab)發起的項目。 文章同步於Github倉庫: https://github.c

原创 深度強化學習系列之(13): 深度強化學習實驗中應該使用多少個隨機種子?

How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Experiments 前言 不斷檢

原创 深度強化學習系列(15): TRPO算法原理及Tensorflow實現

深入淺出理解TRPO算法1、論文思想與原理1.1 Surrogate function(替代函數)1.2 目標函數1.3 一階近似: L函數1.3.1 技巧一:一階近似1.3.2 重要性採樣1.3.3 步長的選擇1.4 單調遞增

原创 深度強化學習系列(4): Q-Learning原理與實現

論文地址: http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdf Q-Learning是發表於1989年的一種value-based,且model-free的特別經典的off-p

原创 深度強化學習系列(7): Double DQN(DDQN)原理及實現

論文地址: https://arxiv.org/pdf/1509.06461.pdf 本文是Google DeepMind於2015年12月提出的一篇解決Q值"過估計(overestimate)"的文章,發表在頂級會議AAAI

原创 深度強化學習系列(8): Prioritized Experience Replay(PER-DQN)原理及實現

論文地址: https://arxiv.org/abs/1511.05952 本論文是由DeepMind操刀,Schaul主導完成的文章,發表於頂會ICLR2016上,主要解決經驗回放中的”採樣問題“(在DQN算法中使用了經典

原创 深度強化學習系列(10): NoisyNet-DQN原理及實現

論文地址: https://arxiv.org/pdf/1706.10295v1.pdf 本篇論文是DeepMind發表於頂會ICLR2018上的論文,第一作者Meire,裏面也有熟悉的Mnih等大佬,還是往常的閱讀順序: 本