2019年伯克利大學 CS294-112《深度強化學習》第3講：TensorFlow 和神經網絡簡述（筆記)

原創

守望者白狼

2019-03-03 23:39

今天課的主要內容是TensorFlow的教程和深度神經網絡，由助教Greg Kahn主講。

在開始之前，想繼續講一下上週的一些討論，因爲上次最後沒有講完的所有理論，這是上星期的課程的一點尾巴。在很多場景下，模仿學習是一個學習策略的合適方法，但是在另外一些場景，模仿學習就力不從心了，這也是課程要講強化學習的理由。如果你想超越模仿學習，非常重要的是確切的定義出一個決定是好是壞，而不是僅僅說採取的行動符合在採樣中學習到的，你需要公式化目標函數，在強化學習中稱之爲獎賞函數或者損失函數。

上週用的例子就是這樣的。如果你處在例子中所說的老虎在一起，需要立刻採取動作，根本不會想策略是什麼或者它代表什麼意思，只是需要知道什麼是好決定，什麼是壞決策。真正關心的是將要發生什麼或者不會發生什麼，最關心的是會不會被老虎吃掉。動作的目標應該就是最小化被老虎吃掉的概率。概括來講，在決策問題，你可以寫一個損失函數或者獎賞函數，它可以告訴某個狀態或者動作有多好，你在所有的時間上最大化獎賞函數或者最小化損失函數

待續…

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度強化學習系列(5): Double Q-Learning原理詳解

論文地址： https://papers.nips.cc/paper/3964-double-q-learning.pdf 本論文由DeepMind發表於2015年NIPS的一篇論文，作者Hasselt。前言： Q-Lear

2020-07-03 21:00:41

深度強化學習系列: 最全深度強化學習資料

關於這項工作: 本工作是一項由深度強化學習實驗室(Deep Reinforcement Learning Laboratory, DeepRL-Lab)發起的項目。文章同步於Github倉庫： https://github.c

2020-07-03 21:00:41

深度強化學習系列之(13): 深度強化學習實驗中應該使用多少個隨機種子？

How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Experiments 前言不斷檢

2020-07-03 21:00:41

深度強化學習系列(15): TRPO算法原理及Tensorflow實現

深入淺出理解TRPO算法1、論文思想與原理1.1 Surrogate function(替代函數)1.2 目標函數1.3 一階近似： L函數1.3.1 技巧一：一階近似1.3.2 重要性採樣1.3.3 步長的選擇1.4 單調遞增

2020-07-03 21:00:41

深度強化學習系列(4): Q-Learning原理與實現

論文地址： http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdf Q-Learning是發表於1989年的一種value-based，且model-free的特別經典的off-p

2020-07-03 21:00:41

深度強化學習系列(7): Double DQN(DDQN)原理及實現

論文地址： https://arxiv.org/pdf/1509.06461.pdf 本文是Google DeepMind於2015年12月提出的一篇解決Q值"過估計(overestimate)"的文章，發表在頂級會議AAAI

2020-07-03 21:00:36

深度強化學習系列(8): Prioritized Experience Replay(PER-DQN)原理及實現

論文地址： https://arxiv.org/abs/1511.05952 本論文是由DeepMind操刀，Schaul主導完成的文章，發表於頂會ICLR2016上，主要解決經驗回放中的”採樣問題“（在DQN算法中使用了經典

2020-07-03 21:00:36

深度強化學習系列(10): NoisyNet-DQN原理及實現

論文地址： https://arxiv.org/pdf/1706.10295v1.pdf 本篇論文是DeepMind發表於頂會ICLR2018上的論文，第一作者Meire，裏面也有熟悉的Mnih等大佬，還是往常的閱讀順序：本

2020-07-03 21:00:36

深度強化學習－－第一講

deep reinforcement learning deep: 能夠處理複雜的場景輸入以及計算真實複雜函數 reinforcement learning：能夠選擇複雜的actions 強化學習遇到的問題 * 人類可以快速學習

水的只能学

2020-07-02 23:02:41

強化學習(三）：馬爾可夫決策過程MDP【下篇】

目錄馬爾可夫決策過程MDP： a Markov reward process with decisions 策略值函數 Bellman 期望公式 Bellman期望公式的矩陣形式最優值函數 Optimal Value Funct

2020-07-01 18:56:35

強化學習【三】：動態規劃問題

·目錄 Policy Evaluation（策略評估） Iterative Policy Evaluation （迭代策略估計）例子：方格遊戲策略迭代 policy iteration 策略改進 Policy Improvement

2020-07-01 18:56:24

論文《Human-level control through deep reinforcement learning》PPT

前言由於實驗室要求每週PPT分享彙報，在這一過程中，體會到新手需要花費時間去整理論文思路，耗時較長，因此將相關PPT上傳，供有需要的遊客查閱。下載網址：Human-level.ppt …

2020-06-30 06:50:31

【深度學習】交叉熵方法

文章目錄前言第四章交叉熵方法強化學習方法的分類實用的交叉熵交叉熵法實踐：玩CartPole小遊戲交叉熵的理論背景總結前言重讀《Deep Reinforcemnet Learning Hands-on》，常讀常新，極其深入

B417科研笔记

2020-06-29 21:54:33

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門在此講座中，DeepMind研究科學家和UCL教授Thore Graepel解釋了DeepMind基於機器學習的AI方法。他舉例說明了如何結合使用

守望者白狼

2020-06-26 18:07:48

深度強化學習（資源篇）（更新於2020.06.9）

理論 ICLR2020 || 106篇深度強化學習頂會論文彙總前沿技術 || UC Berkeley開源RAD來改進強化學習算法加速RL探索效率，CMU、谷歌、斯坦福提出以弱監督學習解糾纏表徵強化學習如何使用內在動機？邊做

守望者白狼

2020-06-26 18:07:37

24小時熱門文章

最新文章

最新評論文章