AI - Reinforcement

MDP (Markov Decision Process)

Created with Raphaël 2.1.2State SpaceAction SpaceTransition FunctionReward Function

State: S
Action: A
Tansition Function

T(s,a,s)=P(St+1=s,St=s,At=a)

Reward Function

R(s)||R(s,a)||R(s,a,s)

如果讓Initial State做Root,可以用:AND/OR Tree

例子:已知某一種Agent的出現概率如下(i:行;j: 例):

P1ij=0.30.30.30.30.30.20.20.20.20.20.20.20.20.20.20.10.10.10.10.10.20.20.20.20.2

根據上面的Transition Function和某個情況 歸納出:
T1(i,j)= i<j;0 ij;P(i,ji) j=0;nx=iP(i,x)

當j =0時, 按照上面公式,把紫色區域相加,即爲當j = 0時的所有值:
這裏寫圖片描述
T1(0,0) = 0.3+0.3+0.2+0.1+0.2=1
T1(1,0) = 0.2+0.2+0.1+0.2 = 0.7
T1(2,0) = 0.2+0.1+0.2 = 0.5

T1ij=10.70.50.30.200.30.20.20.1000.30.20.20000.30.200000.3

如果有P1 和 P2:
Current State s1 with action a1 can make agent move to Next State s1
Current State s2 with action a2 can make agent move to Next State s2
T(s,a,s)==T((s1,s2),(a1,a2),(s1,s2))T1(s1+a1,s1)T2(s2+a2,s2)

假設求Sate 1爲 2,State 2爲1;Action 對應 1 與 2 分別爲 1, 0;下一階段的Sate 1 與 State 2 對應 1,0:
T((2,1),(1,0),(1,0))===T1(2+1,1)T2(1+0,0)T(3,1)T2(1,0)0.6

從T1 的Matrix 找到行(i)=>3,例(j)=>1的對應數字爲0.2,假設T2(1,0)=0.3, 則最後上面例子的結果爲:0.20.3=0.6
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章