Topic筆記：reinforcement learning

原創

John2King

2020-06-19 13:13

1.define:

sparse and time-delayed labels

弱監督信息，無需大量標註樣本

2.env

從虛擬中學習，反饋迅速，容易實現

3.訓練樣本

一幀或多幀，作爲一次更新的訓練樣本

4.動作狀態序列

state,action,reward -> new state ...

5.deftine state

用畫面隱式地包含狀態信息，比如擋板位置，打了多少目標

優點：框架的通用性比較好

缺點：戰術型，短期反饋權重高；戰略型不太work

reward :

Rt = Rt + r*Rt+1 + r^2*Rt+2

Q(s,a) = max Rt：初始化爲查找表

pie(s) = arg max Q(st,at)

pie is called policy

define action:隱含在狀態中

define reward:align with frame

對於Q的形式，沒有形式化表示

數學證明是收斂的

貝爾曼公式，每次推動一步

6.深入

狀態：像素級別的狀態太多：四幀80*80的圖片

用迴歸去擬合Q，不work

用DL:

輸入狀態，輸出的是執行每個狀態的reward，以作決策

沒有pooling的CNN,不損失位置信息

7.用技巧去訓練使收斂

1）用隨機數epsilo去決定用探索新的策略，還是基於Q的最大值去選擇：提供隨機性。。類似遺傳算法的變異

2）store transition<st,at,Rt+1,St+1> in D

不是直接學習當前狀態，

而是每一步新添加一個transition到list，然後再隨機選擇一個來學習

3）每隔C步更新Q函數

8.可視化 FC

視覺不同的畫面，在這裏看起來比較近

接近人的理解：比如不同場景的得分前夕在一起

9.訓練完一個，想轉化目標的時候，不是finetune

而是結合既有網絡的決策，加權的方式

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Topic筆記：reinforcement learning

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

sql server sp_executesql 中使用表變量進行查詢

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

論文筆記:Going deeper with convolution

讀書筆記：C++ primer 5th edition--chapter 3.字符串，向量，數組

Topic筆記：reinforcement learning

論文筆記:Inception-V4, Inception-ResNet

讀書筆記：C++ primer 5th edition--chapter12.動態內存

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結