台部落

Intra-Option策略梯度理論

2020-07-03 17:26:04

Termination梯度理論

2020-07-03 17:26:04

Compute the Optimal Policy & the Optimal Value 計算最佳策略和計算最佳價值

从流域到海域

2020-06-23 13:35:43

Monte Carlo Tree Search (MCTS) 蒙特·卡羅爾樹搜索

从流域到海域

2020-06-23 13:35:43

《強化學習》中的第11章：基於函數逼近的離軌策略方法

PiperNest (同公众号)

2020-06-20 19:39:45

【開發隨筆】以強化學習環境 gym 庫爲例：爲什麼日常中我應該試圖標準化接口？

PiperNest (同公众号)

2020-06-20 19:39:45

什麼樣的 python 可以可謂專業 PyPI 項目？剛剛學到三個概念：pep8、Sphinx、pytest與GitHub Action的集成

PiperNest (同公众号)

2020-06-20 19:39:45

《強化學習》中的第15章：神經科學

PiperNest (同公众号)

2020-06-20 19:39:45

《強化學習》中的第14章：心理學

PiperNest (同公众号)

2020-06-20 19:39:34

無需公式或代碼，用生活實例談談 AI 自動控制技術“強化學習”算法框架

PiperNest (同公众号)

2020-06-20 19:39:33

[強化學習] 多臂賭博機

2020-06-20 02:32:32

[強化學習] 有限馬爾科夫決策過程

2020-06-19 19:23:22

[強化學習] 概念、舉例、分類

2020-06-19 18:20:19

強化學習--基礎篇

Chasing中的小强

2020-06-16 04:08:49

《強化學習》——CH2 多臂賭博機筆記

超级无敌小小顺利

2020-06-16 04:05:31

1 2 3 4 5 6 7 8 9 10