2019年伯克利大學 CS294-112《深度強化學習》第4講：強化學習簡介（筆記)

原創

守望者白狼

2019-05-02 07:05

今天的課算是關於如何優化獎勵函數的強化學習算法的第一課。在接下來的幾週中會講到更多關於某個算法的細節，而今天就做一些數學推導。目的是對強化學習中一些一般的定義和不同種類的算法，有一個基本的認識。對典型的強化學習算法的原理有一個高層次的認識，所以今天的東西可能會有一點點高階。如果看起來有點吃力，不用擔心後面幾週會講到更多細節，而且會講到這些方法的推導過程和實現過程中的難點。

今天會先講一下馬爾科夫決策過程的定義，這是很多強化學習算法中最核心、最基礎的數學概念。還會講到強化學習問題的定義，強化學習問題本質上來說是一個優化問題，但是需要定義你的優化目標是什麼？自變量是什麼？然後會介紹典型的強化學習算法的內部結構，實際上後面我們講到的所有強化學習算法，他們都能分解成三個部分。會將一下那三個部分分別是什麼，然後會給一些例子說明對於不同的方法這些部分如何變化。然後會大概介紹一下這門課要講到的不同種類的算法。所以今天課程的目的就是理解定義和符號，從而理解強化學習算法的根本目標，也就是強化學習算法到底在優化什麼。對於今天講到的這些算法有一個總結性的認識。當然在後面的課程中會講到更多關於這些算法的細節，那麼我們從定義開始。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度強化學習系列(5): Double Q-Learning原理詳解

論文地址： https://papers.nips.cc/paper/3964-double-q-learning.pdf 本論文由DeepMind發表於2015年NIPS的一篇論文，作者Hasselt。前言： Q-Lear

2020-07-03 21:00:41

深度強化學習系列: 最全深度強化學習資料

關於這項工作: 本工作是一項由深度強化學習實驗室(Deep Reinforcement Learning Laboratory, DeepRL-Lab)發起的項目。文章同步於Github倉庫： https://github.c

2020-07-03 21:00:41

深度強化學習系列之(13): 深度強化學習實驗中應該使用多少個隨機種子？

How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Experiments 前言不斷檢

2020-07-03 21:00:41

深度強化學習系列(15): TRPO算法原理及Tensorflow實現

深入淺出理解TRPO算法1、論文思想與原理1.1 Surrogate function(替代函數)1.2 目標函數1.3 一階近似： L函數1.3.1 技巧一：一階近似1.3.2 重要性採樣1.3.3 步長的選擇1.4 單調遞增

2020-07-03 21:00:41

深度強化學習系列(4): Q-Learning原理與實現

論文地址： http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdf Q-Learning是發表於1989年的一種value-based，且model-free的特別經典的off-p

2020-07-03 21:00:41

深度強化學習系列(7): Double DQN(DDQN)原理及實現

論文地址： https://arxiv.org/pdf/1509.06461.pdf 本文是Google DeepMind於2015年12月提出的一篇解決Q值"過估計(overestimate)"的文章，發表在頂級會議AAAI

2020-07-03 21:00:36

深度強化學習系列(8): Prioritized Experience Replay(PER-DQN)原理及實現

論文地址： https://arxiv.org/abs/1511.05952 本論文是由DeepMind操刀，Schaul主導完成的文章，發表於頂會ICLR2016上，主要解決經驗回放中的”採樣問題“（在DQN算法中使用了經典

2020-07-03 21:00:36

深度強化學習系列(10): NoisyNet-DQN原理及實現

論文地址： https://arxiv.org/pdf/1706.10295v1.pdf 本篇論文是DeepMind發表於頂會ICLR2018上的論文，第一作者Meire，裏面也有熟悉的Mnih等大佬，還是往常的閱讀順序：本

2020-07-03 21:00:36

深度強化學習－－第一講

deep reinforcement learning deep: 能夠處理複雜的場景輸入以及計算真實複雜函數 reinforcement learning：能夠選擇複雜的actions 強化學習遇到的問題 * 人類可以快速學習

水的只能学

2020-07-02 23:02:41

強化學習(三）：馬爾可夫決策過程MDP【下篇】

目錄馬爾可夫決策過程MDP： a Markov reward process with decisions 策略值函數 Bellman 期望公式 Bellman期望公式的矩陣形式最優值函數 Optimal Value Funct

2020-07-01 18:56:35

強化學習【三】：動態規劃問題

·目錄 Policy Evaluation（策略評估） Iterative Policy Evaluation （迭代策略估計）例子：方格遊戲策略迭代 policy iteration 策略改進 Policy Improvement

2020-07-01 18:56:24

論文《Human-level control through deep reinforcement learning》PPT

前言由於實驗室要求每週PPT分享彙報，在這一過程中，體會到新手需要花費時間去整理論文思路，耗時較長，因此將相關PPT上傳，供有需要的遊客查閱。下載網址：Human-level.ppt …

2020-06-30 06:50:31

【深度學習】交叉熵方法

文章目錄前言第四章交叉熵方法強化學習方法的分類實用的交叉熵交叉熵法實踐：玩CartPole小遊戲交叉熵的理論背景總結前言重讀《Deep Reinforcemnet Learning Hands-on》，常讀常新，極其深入

B417科研笔记

2020-06-29 21:54:33

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門在此講座中，DeepMind研究科學家和UCL教授Thore Graepel解釋了DeepMind基於機器學習的AI方法。他舉例說明了如何結合使用

守望者白狼

2020-06-26 18:07:48

深度強化學習（資源篇）（更新於2020.06.9）

理論 ICLR2020 || 106篇深度強化學習頂會論文彙總前沿技術 || UC Berkeley開源RAD來改進強化學習算法加速RL探索效率，CMU、谷歌、斯坦福提出以弱監督學習解糾纏表徵強化學習如何使用內在動機？邊做

守望者白狼

2020-06-26 18:07:37

24小時熱門文章

最新文章

最新評論文章