強化學習導論筆記——第一章介紹

原創

2018-11-30 14:54

第一章介紹

什麼是強化學習

強化學習的目標是如何將狀態situation與動作action關聯起來，以便取得最大的收益reward，即收益最大化。

監督學習supervised Learning指的是從外部“監督者supervisor”提供的樣本samples中提供的樣本中學習，但交互式問題interactive problems通常無法從樣本中窮舉出來。

對於強化學習而言，探索exploration與利用exploitation的平衡是非常重要的。利用指的是根據當前已經取得的信息使得收益最大化，而探索是從未知中尋求未來可能的更優選擇。作者在第二章中重點討論了探索與利用的平衡策略，這些策略在後續的算法中有體現。

幾個強化學習的例子：
下棋、煉油的成本質量控制，剛出生的羚羊掙扎地學會奔跑，垃圾清理機器人在垃圾搜索和充電之間作出選擇，一次日常的早餐製作。

強化學習的幾個要素

強化學習由這幾個要素構成：策略policy，回報reward函數，價值value函數以及可選的環境模型model。

策略指的是在某時刻如何行動，即根據所處的狀態來決定如何行動。策略的優化是強化學習的核心問題。

回報函數定義了強化學習問題的優化目標。長期回報的最大化是學習器的唯一目標。

價值函數與回報函數的不同之處在於，回報函數通常是一個即時收益，而價值函數反映了該狀態從長遠來看的回報如何。沒有回報就沒有價值。

環境模型用於對環境的精確描述，由於強化學習問題並不總能取得這樣的信息，因此是可選的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

強化學習--Pytorch--DQN擴展以及Policy Gradient網絡結構

DQN改進 DQN算法存在過估計問題，可以採用Double DQN方法來進行補償。兩種方法只在下圖不同，其他地方一致。下圖公式爲 q_target 的輸出值， DQN: Double DQN: Policy Gradient

Chasing中的小强

2020-07-07 11:10:39

強化學習--Pytorch--DDPG

DDPG介紹及其示例 Deep Deterministic Policy Gradient是DeepMind團隊爲Actor-Critic方法打造的升級版本，其實也就是Actor-critic和DQN的融合版本。下面給出示例程序，

Chasing中的小强

2020-07-07 11:10:37

An Overview of Reinforcement Learning

強化學習概覽 This overview is largely based on this article: https://medium.com/@SmartLabAI/reinforcement-learning-algorithms

2020-07-08 12:16:49

Deep Reinforcement Learning - DDPG原理和算法

Deep Reinforcement Learning - 1 DDPG原理和算法背景描述 DDPG的定義和應用場景 DDPG算法相關基本概念定義 DDPG實現框架和算法 DDPG對於DPG的關鍵改進下一篇

2020-07-08 07:00:03

強化學習策略梯度梳理1 - AC

策略梯度梳理 ACActor-CriticActor-Critic Policy Gradient （QAC）QAC with shared networkone-step AC 主要參考文獻 Reinforcement Lear

ThousandsOfWind

2020-07-08 02:47:02

強化學習策略梯度梳理1 - REINFORCE

策略梯度梳理 REINFORCE策略梯度（PG）REINFORCEREINFORCE-baseline對比DQN總結因爲主要研究方向其實是多智能體博弈，所以對單智能特別是策略梯度這裏，一直停留在面向github使用，然後提前批

ThousandsOfWind

2020-07-08 02:47:02

強化學習與深度強化學習理解

強化學習主要參考西瓜書和一些網上視頻加上個人理解，歡迎互動。強化學習的model如下圖所示，機器在當前狀態下做出動作a，然後環境反饋給機器下一個狀態和一個獎勵。假定狀態空間X，每一個狀態x∈X，動作空間A，每一個動作a∈A，獎

2020-07-07 17:47:36

【個人心得】飛槳強化學習7日打卡營學習心得

1 課程回顧第一次接觸強化學習能遇到飛槳的科科老師挺幸運的，在此再次感謝她和她的團隊爲了這門課程所付出的努力，她能用十分清晰簡潔的邏輯將複雜的強化學習算法講的淺顯易懂，讓我再次理解到了數學抽象的魅力，也爲我備考（考研）路上攻克數

2020-07-07 15:10:22

強化學習-Vanilla Policy Gradient(VPG)

文章目錄BackgroundQuick FactsKey EquationsExploration vs. ExploitationPseudocodeDocumentationReferances Background 策略梯度

2020-07-07 14:10:56

DDPG-強化學習算法

文章目錄BackgroundQuick FactsKey EquationsDDPG的Q-learning部分DDPG的策略學習部分Exploration vs. Exploitation(探索vs.利用)Documentatio

2020-07-07 14:10:56

Soft-Actor-Critic-強化學習算法

文章目錄BackgroundQuick FactsKey EquationsEntropy-Regularized Reinforcement LearningSoft Actor-Critic學習Q.學習策略。Explorati

2020-07-07 14:10:56

強化學習--Pytorch--DQN

DQN的學習效果還是很驚豔的，首先放上本次實驗的代碼。和官方給出的例子一樣，是託舉平衡杆的問題。給出視頻鏈接：強化學習DQN import torch import torch.nn as nn import torch.nn.

Chasing中的小强

2020-07-07 11:10:37

Q Learning 和SARSA算法

1 Q Learning算法 Q更新公式： ∈-greedy策略在Q Learning的更新過程中，每一步都要根據當前的state以及Q函數確定一個合適的行動action。這裏有一個如何平衡“經驗”和“探索”的問題。如果完全按照經驗行

2020-07-07 02:47:53

clearroundrect

這個函數用於清空圓角矩形區域。 void clearroundrect( int left, int top, int right, int bottom, int ellipsewidth, int ellipseheig

2020-07-06 23:54:29

強化學習——蒙特卡洛方法

學習目標理解Prediction和Control的差別；理解什麼是first-visit和every-visit；理解什麼是on-policy和off-policy；理解蒙特卡洛方法的Prediction和Control

2020-07-06 21:27:48

24小時熱門文章

最新文章

最新評論文章