台部落
註冊
登錄
寫文章
請輸入正確的登錄賬號或密碼
註冊
忘記密碼
推薦
最新
android
mysql
python
算法
java
linux
javascript
數據庫
php
c++
Deep Learning for Robotics 資源彙總
songrotek
2020-02-24 00:03:18
gym中env的unwrapped
xcgfth
2020-02-23 13:00:24
馬爾可夫決策過程MDP
Mr丶Caleb
2020-02-22 16:30:22
A Policy Update Strategy in Model-free Policy Search: Expectation-Maximization
止于至玄
2020-02-22 12:23:14
強化學習中的有限馬爾可夫決策過程 Finite Markov Decision Processes in RL
止于至玄
2020-02-22 12:23:14
馬爾可夫過程簡述 - A Brief Tutorial of Markov Process
止于至玄
2020-02-22 12:23:14
上置信界算法(the-upper-confidence-bound-algorithm,UCB)
张博208
2020-02-22 11:56:26
Policy Gradient 算法
从流域到海域
2020-02-22 05:09:50
【強化學習入門】梯度賭博機算法中,偏好函數更新:梯度上升公式是精確梯度上升的隨機近似的證明
PiperNest (同公众号)
2020-02-21 12:16:24
強化學習 / 動態規劃:策略改進(Policy Improvement)使策略更優的數學證明
PiperNest (同公众号)
2020-02-21 12:16:23
《強化學習》中的 時序差分學習 Temporal-Difference Learning (基於與動態規劃 DP 、蒙特卡洛方法 MC 的對比)
PiperNest (同公众号)
2020-02-21 12:16:22
強化學習/動態規劃:貝爾曼方程的解讀 Bellman Equation & 貝爾曼方程組 / 貝爾曼最優方程
PiperNest (同公众号)
2020-02-21 12:16:21
《強化學習》中的時序差分控制:Sarsa、Q-learning、期望Sarsa、雙Q學習 etc.
PiperNest (同公众号)
2020-02-21 12:16:21
n步自舉法:時序差分方法與蒙特卡洛方法的結合
PiperNest (同公众号)
2020-02-21 12:16:21
機器學習、深度學習的理論與實戰入門建議整理(一)
飞奔的小牛
2020-02-21 03:12:00
加载中⋅⋅⋅
1
2
3
4
5
6
7
8
9
10
reinforcement learning 24小時熱門