強化學習知識點集錦

原創

2020-06-21 20:38

在強化學習的世界，我們相信如果輸入是確定的，那麼輸出也一定是確定的。強化學習算法要有用，就是相信在強化學習中每一次參數的調整都會對世界造成確定性的影響。

1.on-policy和off-policy

下圖是Q-learning和Sarsa的流程圖，分別對應off-policy和on-policy

2-tradeoff variance and bias

wiki裏的解釋：

In statistics and machine learning, the bias–variance tradeoff is the property of a set of predictive models whereby models with a lower bias in parameter estimation have a higher variance of the parameter estimates across samples, and vice versa. The bias–variance dilemma or bias–variance problem is the conflict in trying to simultaneously minimize these two sources of error that prevent supervised learning algorithms from generalizing beyond their training set:[citation needed]

The bias error is an error from erroneous assumptions in the learning algorithm. High bias can cause an algorithm to miss the relevant relations between features and target outputs (underfitting).

The variance is an error from sensitivity to small fluctuations in the training set. High variance can cause an algorithm to model the random noise in the training data, rather than the intended outputs (overfitting).

偏差和方差則需要在統計上做對應的定義。

偏差（bias）描述的是通過學習擬合出來的結果之期望，與真實規律之間的差距，記作 Bias(X)=E[f^(X)]−f(X)Bias(X)=E[f^(X)]−f(X)。
方差（variance）即是統計學中的定義，描述的是通過學習擬合出來的結果自身的不穩定性，記作 Var(X)=E[(f^(X)−E[f^(X)])2]Var(X)=E[(f^(X)−E[f^(X)])2]。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

GridMap: 一個用於強化學習 (reinforcement learning) 訓練的二維連續座標柵格地圖

大家好, 我剛剛做了一個簡單的2D連續座標柵格地圖, GridMap. 我們使用GridMap進行我們的強化學習 ( reinforcement learning )算法驗證. 在GridMap中, 用戶可以創建一個起始block和一個終

2020-06-22 10:31:00

一文全面瞭解深度強化學習

閱讀更多，歡迎關注公衆號：論文收割機（paper_reader）原文鏈接：深度強化學習簡介近兩年，深度強化學習可謂是空前絕後，迎來了研究的高潮，同時研究的成果也是登陸各大主流媒體，比如打敗了所有人類圍棋高手的阿爾法狗「AlphaGo

2020-06-20 09:32:00

強化學習-知根知底-深度理解值函數方法（一）

強化學習-Zee知根知底系列搞科研、學習強化學習，重要在於知其然，然後知其所以然。能夠搞清楚，怎麼實現強化學習，看源碼看論文其實就可以做到。但是要真正的抓住核心部分的知識，還是要多做自己的仿真實驗，然後認認真真的多看論文。

2020-06-16 09:30:45

強化學習：Q-learning與DQN（Deep Q Network）

文章目錄Q-learning一些名詞epsilon-greedy算法流程DQN記憶庫(Experience replay)固定Q-目標(Fixed Q-target)算法流程 Q-learning是一種很常用很傳統的強化學習方

2020-06-14 17:33:09

強化學習——MDPs求解之動態規劃

學習目標理解策略評估（Policy Evaluation）和策略提升（Policy Improvement）；理解策略迭代（Policy Iteration）算法；理解值迭代（Value Iteration）算法；理解策

2020-06-10 03:35:14

強化學習——馬爾科夫決策過程和貝爾曼方程

學習目標 Agent和Environment之間的交互過程；理解馬爾科夫決策過程（Markov Decision Processes，MDPs）和如何解讀轉換圖；理解值函數（Value Functions）、動作值

2020-06-10 03:35:13

強化學習——簡介

前言我最先了解到強化學習還是看見論文中有使用強化學習算法去玩遊戲，並且玩得比人類還好，之後AlphaGo系列的圍棋機器人戰勝世界高手也讓我更進一步知道了強化學習的威力。本系列強化學習筆記將以DeepMind AlphaGo的主要

2020-06-10 03:35:13

強化學習（二）--讓你輕鬆玩轉生成對抗網絡（GAN）與生成對抗模仿學習（GAIL）

2020-06-03 21:14:38

莫煩Python RL 代碼閱讀一

2020-04-23 10:34:04

《強化學習導論》中關於帶控制變量的每次決策型方法的理解

野生蘑菇菌

2020-04-19 11:03:21

gym-MountainCar-v0離散狀態的Q-Learning

野生蘑菇菌

2020-04-19 11:03:21

DQN-FlappyBird學習之main.py解析之argparse函數 shell傳參

野生蘑菇菌

2020-04-19 11:03:11

強化學習 | Part 1 - What is reinforcement learning?

born-in-freedom

2020-04-12 22:54:31

頂會速遞 | ICLR 2020錄用論文之強化學習篇

2020-03-13 00:42:16

GAE(Generalized Advantage Estimation) PPO

https://blog.csdn.net/zhkmxx930xperia/article/details/88257891 https://zhuanlan.zhihu.com/p/45107835 https://zhuanlan.z

2020-07-04 00:44:48

24小時熱門文章

最新文章

最新評論文章