人工智能教程 - 專業選修課程4.3.5 - 強化學習 3.行動決策,價值函數,模型,迷宮問題

行動決策 policy

  • 行動決策 A policy is the agent’s behaviour
  • 是狀態到行動的映射 It is a map from state to action, e.g.
  • 選擇的決策 Deterministic policy: a=π(s)a = \pi(s)
  • 隨機的解決 Stochastic policy:π(as)=P[At=aSt=s]\pi (a|s)=P[A_t = a|S_t = s]

價值函數 Value Function

  • 對於未來獎勵的預測。Value function is a prediction of future reward
  • 有兩個狀態的話,如何在狀態1和狀態2做出選擇,他們又分別代表着行動1和行動2,需要根據我們的偏好進行,而偏好又是由期望得到最大的獎勵。Used to evaluate the goodness/badness of states
  • And therefore to select between actions, e.g.

Vπ(s)=Eπ[Rt+γRt+1+γ2Rt+2+...St=s]V_{\pi}(s)=\mathbb{E}_{\pi}[R_t+\gamma R_{t+1}+\gamma ^2 R_{t+2}+...|S_t=s]

model (不是必須項)

  • 模型對於下一步的行動很有好處。A model predicts what the environment will do next
    1).狀態轉換模型 Transitions model :預測下一個狀態的環境的動態變化 P predicts the next state
    Pssa=P[S=sS=s,A=a]\LARGE P_{ss'}^a =\mathbb{P}[S'=s'|S=s,A=a]
    2).獎勵模型 Rewards model :R predicts the next (immediate) reward, e.g.
    Rsa=E[RS=s,A=a]\LARGE R_{s}^a =\mathbb{E}[R|S=s,A=a]

迷宮的例子

在這裏插入圖片描述

迷宮行動決策 policy

在這裏插入圖片描述

迷宮價值函數

在這裏插入圖片描述

迷宮model

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章