台部落

【強化學習】多臂賭博機

2020-03-08 01:35:37

Reinforcement Learning-馬爾可夫決策過程

2020-03-04 15:51:12

Reinforcement Learning-動態規劃

2020-03-04 15:51:12

用“小紅的下任男友是誰”通俗解釋強化學習中的基於模型方法與免模型方法

PiperNest (同公众号)

2020-02-25 15:45:39

Deep Learning for Robotics 資源彙總

2020-02-24 00:03:18

gym中env的unwrapped

2020-02-23 13:00:24

馬爾可夫決策過程MDP

2020-02-22 16:30:22

A Policy Update Strategy in Model-free Policy Search: Expectation-Maximization

2020-02-22 12:23:14

強化學習中的有限馬爾可夫決策過程 Finite Markov Decision Processes in RL

2020-02-22 12:23:14

馬爾可夫過程簡述 - A Brief Tutorial of Markov Process

2020-02-22 12:23:14

Policy Gradient 算法

从流域到海域

2020-02-22 05:09:50

【強化學習入門】梯度賭博機算法中，偏好函數更新：梯度上升公式是精確梯度上升的隨機近似的證明

PiperNest (同公众号)

2020-02-21 12:16:24

強化學習 / 動態規劃：策略改進（Policy Improvement）使策略更優的數學證明

PiperNest (同公众号)

2020-02-21 12:16:23

《強化學習》中的時序差分學習 Temporal-Difference Learning （基於與動態規劃 DP 、蒙特卡洛方法 MC 的對比）

PiperNest (同公众号)

2020-02-21 12:16:22

強化學習/動態規劃：貝爾曼方程的解讀 Bellman Equation & 貝爾曼方程組 / 貝爾曼最優方程

PiperNest (同公众号)

2020-02-21 12:16:21

1 2 3 4 5 6 7 8 9 10