MDP (Markov Decision Process)
State: S
Action: A
Tansition Function
T(s,a,s′)=P(St+1=s′,St=s,At=a)
Reward Function
R(s)||R(s,a)||R(s,a,s′)
如果讓Initial State做Root,可以用:AND/OR Tree
例子:已知某一種Agent的出現概率如下(i:行;j: 例):
根據上面的Transition Function和某個情況 歸納出:
當j =0時, 按照上面公式,把紫色區域相加,即爲當j = 0時的所有值:
T1(0,0) = 0.3+0.3+0.2+0.1+0.2=1
T1(1,0) = 0.2+0.2+0.1+0.2 = 0.7
T1(2,0) = 0.2+0.1+0.2 = 0.5
…
如果有P1 和 P2:
Current State
Current State
假設求Sate 1爲 2,State 2爲1;Action 對應 1 與 2 分別爲 1, 0;下一階段的Sate 1 與 State 2 對應 1,0:
從T1 的Matrix 找到行(i)=>3,例(j)=>1的對應數字爲0.2,假設T2(1,0)=0.3, 則最後上面例子的結果爲: