原创 深度強化學習系列(1): 深度強化學習概述

機器學習是人工智能的一個分支,在近30多年已發展爲一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等的學科。強化學習(RL)作爲機器學習的一個子領域,其靈感來源於心理學中的行爲主義理論,即智能體如何在環境給予

原创 深度強化學習系列(16): 從DPG到DDPG算法的原理講解及tensorflow代碼實現

1、背景知識 在前文系列博客第二篇中講解了DQN(深度強化學習DQN原理),可以說它是神經網絡在強化學習中取得的重大突破,也爲強化學習的發展提供了一個方向和基礎,Sliver等人將其應用在Atari遊戲中取得了重大突破, 後來大批

原创 深度強化學習系列(6): DQN原理及實現

利用神經網絡近似值函數的方法表示爲: V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a) \hat{V}(s, w) \approx V_{\pi}(s) \\ \hat{q}(s, a, w) \approx q_

原创 深度強化學習系列(13): 策略梯度(Policy Gradient)

對於DQN來說使用一個網絡直接逼近了值函數,最後取得了非常不錯的效果, 但是對於一些連續性控制或者動作空間特別大的環境來說,很難全部計算所有的值函數來得到最好的策略,那麼直接計算策略的方法就別提出來了。 回顧一下前面幾篇,所謂的策

原创 深度強化學習系列: 深度強化學習的加速方法解讀

《Accelerated methods for deep reinforcement learning》論文解讀 深度強化學習一直以來都以智能體訓練時間長、計算力需求大而限制很多的人去學習,比如:AlphaZero訓練3天的時間

原创 深度強化學習系列: “獎勵函數”的設計和設置(reward shaping)

概述 前面已經講了好幾篇關於強化學習的概述、算法(DPG->DDPG),也包括對環境OpenAI gym的安裝,baseline算法的運行和填坑,雖然講了這麼多,算法也能夠正常運行還取得不錯的效果,但是一直以來忽略了一個非常重要的

原创 深度強化學習系列: “超參數”與“網絡結構”自動化設置方法---DeepHyper

可擴展的異步神經網絡和超參數搜索深度神經網絡方法 前言: 在深度學習和機器學習算法學習和訓練的過程中,有兩個非常讓人頭疼的問題 超參數的設置 神經網絡結構的設計 這兩個問題一直困擾每一個與神經網絡有關的學習者,爲了解決這

原创 深度強化學習系列: OpenAI-baselines的使用方法

OpenAI,由諸多硅谷大亨聯合建立的人工智能非營利組織。2015年馬斯克與其他硅谷科技大亨進行連續對話後,決定共同創建OpenAI,希望能夠預防人工智能的災難性影響,推動人工智能發揮積極作用 OpenAI、DeepMind,伯克

原创 深度強化學習系列(14): A3C算法原理及Tensorflow實現

在DQN、DDPG算法中均用到了一個非常重要的思想經驗回放,而使用經驗回放的一個重要原因就是打亂數據之間的相關性,使得強化學習的序列滿足獨立同分布。 本文首先從Google於ICML2016頂會上發的論文《Asynchronous

原创 深度強化學習系列(2): ERROR: GLEW initalization error: Missing GL version

當深度強化學習之(6)中的環境安裝好之後,一陣欣喜,覺得可以幹大事了,於是激動的不行,迫不及待的想看效果 然而幸福來的太快就容易讓人失望的越厲害,因此美好的事情總是值得多次磨礪 廢話不說了,爆出的錯誤是這樣的 Running tr

原创 深度強化學習系列: 多巴胺(Dopamine)環境配置和實例分析

Paper: Dopamine–a research framework for deep reinforcement Learning Github: https://github.com/google/dopamine 論文

原创 深度強化學習系列(9): Dueling DQN(DDQN)原理及實現

本文是DeepMind發表於ICML2016頂會的文章(獲得Best Paper獎),第一作者Ziyu Wang(第四作Hado Van Hasselt就是前幾篇文章#Double Q-learning#,Double DQN的

原创 Tensorflow自定義讀取文件

轉載地址:http://blog.csdn.net/gsww404/article/details/78083169 Tensorflow數據讀取有三種方式: Preloaded data: 預加載數據Feeding: Pytho

原创 深度強化學習系列(4): Q-Learning算法原理與實現

論文地址: http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdf Q-Learning是發表於1989年的一種value-based,且model-free的特別經典的off-p

原创 TensorBoard 簡介及使用流程

僅供學習參考,轉載地址:http://blog.csdn.net/mzpmzk/article/details/77914941 一、TensorBoard 簡介及使用流程 1、TensoBoard 簡介 TensorBoard 和 T