行動決策 policy
- 行動決策 A policy is the agent’s behaviour
- 是狀態到行動的映射 It is a map from state to action, e.g.
- 選擇的決策 Deterministic policy:
- 隨機的解決 Stochastic policy:
價值函數 Value Function
- 對於未來獎勵的預測。Value function is a prediction of future reward
- 有兩個狀態的話,如何在狀態1和狀態2做出選擇,他們又分別代表着行動1和行動2,需要根據我們的偏好進行,而偏好又是由期望得到最大的獎勵。Used to evaluate the goodness/badness of states
- And therefore to select between actions, e.g.
model (不是必須項)
- 模型對於下一步的行動很有好處。A model predicts what the environment will do next
1).狀態轉換模型 Transitions model :預測下一個狀態的環境的動態變化 P predicts the next state
2).獎勵模型 Rewards model :R predicts the next (immediate) reward, e.g.