智能體分類
Categorizing RL agents
-
基於價值 Value Based
- No Policy (Implicit)
- Value Function
-
基於行動決策 Policy Based
- Policy
- No Value Function
-
結合價值和行動決策 Actor Critic
- Policy
- Value Function
-
無模型 Model Free
- Policy and/or Value Function
- No Model
-
基於模型的 Model Based
- Policy and/or Value Function
- No Model
在連續決策問題當中的兩個重要方面
Two fundamental problems in sequential decision making
強化學習問題 Reinforcement Learning:
- 環境是未知的 The environment is initially unknown
- 需要不斷和環境進行交互 The agent interacts with the environment
- 不斷的進行學習,改善了它的行動決策 The agent improves its policy
規劃問題 Planning:
- 環境模型是已知的 A model of the environment is known
- 不需要和真實的外部環境進行交互,agent有充足的時間根據環境模型進行計算,提前規劃好了一樣 The agent performs computations with its model (without any
external interaction) - 通過這種方式,改善了它的行動決策The agent improves its policy
a.k.a. deliberation, reasoning, introspection, pondering,
thought, search
強化學習問題例子
規劃問題例子
需要平衡探索Exploration 和開發Exploitation 的問題
- 有選擇的放棄某些獎勵,這樣做是爲了找到更多環境的信息
- Exploration finds more information about the environment
- 利用已有的信息,最大化獎勵 Exploitation exploits known information to maximise reward
It is usually important to explore as well as exploit
預測和控制
- 預測:遵循現在的行動策略,在未來會做什麼
Prediction: evaluate the future Given a policy
預測的例子
- 控制:我們該如何得到最優的心動策略
Control: optimise the future Find the best policy