Topic筆記:reinforcement learning

1.define:
sparse and time-delayed labels
弱監督信息,無需大量標註樣本
2.env
從虛擬中學習,反饋迅速,容易實現
3.訓練樣本
一幀或多幀,作爲一次更新的訓練樣本
4.動作狀態序列
state,action,reward     -> new state ...

5.deftine state
用畫面隱式地包含狀態信息,比如擋板位置,打了多少目標
優點:框架的通用性比較好
缺點:戰術型,短期反饋權重高;戰略型不太work
reward :
Rt = Rt + r*Rt+1 + r^2*Rt+2
Q(s,a) = max Rt:初始化爲查找表
pie(s) = arg max Q(st,at)
pie is called policy
define action:隱含在狀態中
define reward:align with frame
對於Q的形式,沒有形式化表示
數學證明是收斂的
貝爾曼公式,每次推動一步

6.深入
狀態:像素級別的狀態太多:四幀80*80的圖片
用迴歸去擬合Q,不work
用DL:
輸入狀態,輸出的是執行每個狀態的reward,以作決策
沒有pooling的CNN,不損失位置信息

7.用技巧去訓練使收斂
1)用隨機數epsilo去決定用探索新的策略,還是基於Q的最大值去選擇:提供隨機性。。類似遺傳算法的變異

2)store transition<st,at,Rt+1,St+1> in D
     不是直接學習當前狀態,
     而是每一步新添加一個transition到list,然後再隨機選擇一個來學習
3)每隔C步更新Q函數

8.可視化 FC
視覺不同的畫面,在這裏看起來比較近
接近人的理解:比如不同場景的得分前夕在一起

9.訓練完一個,想轉化目標的時候,不是finetune
而是結合既有網絡的決策,加權的方式















發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章