台部落

Deep Learning for Robotics 資源彙總

2020-02-24 00:03:18

gym中env的unwrapped

2020-02-23 13:00:24

馬爾可夫決策過程MDP

2020-02-22 16:30:22

A Policy Update Strategy in Model-free Policy Search: Expectation-Maximization

2020-02-22 12:23:14

強化學習中的有限馬爾可夫決策過程 Finite Markov Decision Processes in RL

2020-02-22 12:23:14

馬爾可夫過程簡述 - A Brief Tutorial of Markov Process

2020-02-22 12:23:14

上置信界算法（the-upper-confidence-bound-algorithm，UCB）

2020-02-22 11:56:26

Policy Gradient 算法

从流域到海域

2020-02-22 05:09:50

【強化學習入門】梯度賭博機算法中，偏好函數更新：梯度上升公式是精確梯度上升的隨機近似的證明

PiperNest (同公众号)

2020-02-21 12:16:24

強化學習 / 動態規劃：策略改進（Policy Improvement）使策略更優的數學證明

PiperNest (同公众号)

2020-02-21 12:16:23

《強化學習》中的時序差分學習 Temporal-Difference Learning （基於與動態規劃 DP 、蒙特卡洛方法 MC 的對比）

PiperNest (同公众号)

2020-02-21 12:16:22

強化學習/動態規劃：貝爾曼方程的解讀 Bellman Equation & 貝爾曼方程組 / 貝爾曼最優方程

PiperNest (同公众号)

2020-02-21 12:16:21

《強化學習》中的時序差分控制：Sarsa、Q-learning、期望Sarsa、雙Q學習 etc.

PiperNest (同公众号)

2020-02-21 12:16:21

n步自舉法：時序差分方法與蒙特卡洛方法的結合

PiperNest (同公众号)

2020-02-21 12:16:21

機器學習、深度學習的理論與實戰入門建議整理（一）

飞奔的小牛

2020-02-21 03:12:00

1 2 3 4 5 6 7 8 9 10

reinforcement learning 24小時熱門