台部落
註冊
登錄
寫文章
請輸入正確的登錄賬號或密碼
註冊
忘記密碼
推薦
最新
android
mysql
python
算法
java
linux
javascript
數據庫
php
c++
【強化學習】多臂賭博機
nana-li
2020-03-08 01:35:37
Reinforcement Learning-馬爾可夫決策過程
MonteYang
2020-03-04 15:51:12
Reinforcement Learning-動態規劃
MonteYang
2020-03-04 15:51:12
用“小紅的下任男友是誰”通俗解釋強化學習中的 基於模型方法 與 免模型方法
PiperNest (同公众号)
2020-02-25 15:45:39
Deep Learning for Robotics 資源彙總
songrotek
2020-02-24 00:03:18
gym中env的unwrapped
xcgfth
2020-02-23 13:00:24
馬爾可夫決策過程MDP
Mr丶Caleb
2020-02-22 16:30:22
A Policy Update Strategy in Model-free Policy Search: Expectation-Maximization
止于至玄
2020-02-22 12:23:14
強化學習中的有限馬爾可夫決策過程 Finite Markov Decision Processes in RL
止于至玄
2020-02-22 12:23:14
馬爾可夫過程簡述 - A Brief Tutorial of Markov Process
止于至玄
2020-02-22 12:23:14
Policy Gradient 算法
从流域到海域
2020-02-22 05:09:50
【強化學習入門】梯度賭博機算法中,偏好函數更新:梯度上升公式是精確梯度上升的隨機近似的證明
PiperNest (同公众号)
2020-02-21 12:16:24
強化學習 / 動態規劃:策略改進(Policy Improvement)使策略更優的數學證明
PiperNest (同公众号)
2020-02-21 12:16:23
《強化學習》中的 時序差分學習 Temporal-Difference Learning (基於與動態規劃 DP 、蒙特卡洛方法 MC 的對比)
PiperNest (同公众号)
2020-02-21 12:16:22
強化學習/動態規劃:貝爾曼方程的解讀 Bellman Equation & 貝爾曼方程組 / 貝爾曼最優方程
PiperNest (同公众号)
2020-02-21 12:16:21
加载中⋅⋅⋅
1
2
3
4
5
6
7
8
9
10