台部落J.Q.Wang@2048

原创深度強化學習系列(1): 深度強化學習概述

機器學習是人工智能的一個分支，在近30多年已發展爲一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等的學科。強化學習(RL)作爲機器學習的一個子領域，其靈感來源於心理學中的行爲主義理論，即智能體如何在環境給予

2020-06-01 01:44:08

2

原创深度強化學習系列(16): 從DPG到DDPG算法的原理講解及tensorflow代碼實現

1、背景知識在前文系列博客第二篇中講解了DQN（深度強化學習DQN原理），可以說它是神經網絡在強化學習中取得的重大突破，也爲強化學習的發展提供了一個方向和基礎，Sliver等人將其應用在Atari遊戲中取得了重大突破, 後來大批

2020-06-01 01:44:08

149

原创深度強化學習系列(6): DQN原理及實現

利用神經網絡近似值函數的方法表示爲： V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a) \hat{V}(s, w) \approx V_{\pi}(s) \\ \hat{q}(s, a, w) \approx q_

2020-06-01 01:44:08

16

原创深度強化學習系列(13): 策略梯度（Policy Gradient）

對於DQN來說使用一個網絡直接逼近了值函數，最後取得了非常不錯的效果, 但是對於一些連續性控制或者動作空間特別大的環境來說，很難全部計算所有的值函數來得到最好的策略，那麼直接計算策略的方法就別提出來了。回顧一下前面幾篇，所謂的策

2020-06-01 01:44:08

7

原创深度強化學習系列: 深度強化學習的加速方法解讀

《Accelerated methods for deep reinforcement learning》論文解讀深度強化學習一直以來都以智能體訓練時間長、計算力需求大而限制很多的人去學習，比如：AlphaZero訓練3天的時間

2020-06-01 01:44:08

原创深度強化學習系列: “獎勵函數”的設計和設置（reward shaping）

概述前面已經講了好幾篇關於強化學習的概述、算法(DPG->DDPG),也包括對環境OpenAI gym的安裝，baseline算法的運行和填坑，雖然講了這麼多，算法也能夠正常運行還取得不錯的效果，但是一直以來忽略了一個非常重要的

2020-06-01 01:44:08

原创深度強化學習系列: “超參數”與“網絡結構”自動化設置方法---DeepHyper

可擴展的異步神經網絡和超參數搜索深度神經網絡方法前言：在深度學習和機器學習算法學習和訓練的過程中，有兩個非常讓人頭疼的問題超參數的設置神經網絡結構的設計這兩個問題一直困擾每一個與神經網絡有關的學習者，爲了解決這

2020-06-01 01:44:08

5

原创深度強化學習系列: OpenAI-baselines的使用方法

OpenAI，由諸多硅谷大亨聯合建立的人工智能非營利組織。2015年馬斯克與其他硅谷科技大亨進行連續對話後，決定共同創建OpenAI，希望能夠預防人工智能的災難性影響，推動人工智能發揮積極作用 OpenAI、DeepMind，伯克

2020-06-01 01:44:08

原创深度強化學習系列(14): A3C算法原理及Tensorflow實現

在DQN、DDPG算法中均用到了一個非常重要的思想經驗回放，而使用經驗回放的一個重要原因就是打亂數據之間的相關性，使得強化學習的序列滿足獨立同分布。本文首先從Google於ICML2016頂會上發的論文《Asynchronous

2020-06-01 01:43:58

1

原创深度強化學習系列(2): ERROR: GLEW initalization error: Missing GL version

當深度強化學習之（6）中的環境安裝好之後，一陣欣喜，覺得可以幹大事了，於是激動的不行，迫不及待的想看效果然而幸福來的太快就容易讓人失望的越厲害，因此美好的事情總是值得多次磨礪廢話不說了，爆出的錯誤是這樣的 Running tr

2020-06-01 01:43:58

原创深度強化學習系列: 多巴胺（Dopamine）環境配置和實例分析

Paper: Dopamine–a research framework for deep reinforcement Learning Github: https://github.com/google/dopamine 論文

2020-06-01 01:43:58

2

原创深度強化學習系列(9): Dueling DQN(DDQN)原理及實現

本文是DeepMind發表於ICML2016頂會的文章（獲得Best Paper獎），第一作者Ziyu Wang（第四作Hado Van Hasselt就是前幾篇文章#Double Q-learning#，Double DQN的

2020-03-25 18:04:58

5

原创 Tensorflow自定義讀取文件

轉載地址：http://blog.csdn.net/gsww404/article/details/78083169 Tensorflow數據讀取有三種方式： Preloaded data: 預加載數據Feeding: Pytho

2020-02-21 21:06:48

原创深度強化學習系列(4): Q-Learning算法原理與實現

論文地址： http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdf Q-Learning是發表於1989年的一種value-based，且model-free的特別經典的off-p

2020-02-21 21:06:48

原创 TensorBoard 簡介及使用流程

僅供學習參考，轉載地址：http://blog.csdn.net/mzpmzk/article/details/77914941 一、TensorBoard 簡介及使用流程 1、TensoBoard 簡介 TensorBoard 和 T

2020-02-21 21:06:48