Topic笔记:reinforcement learning

1.define:
sparse and time-delayed labels
弱监督信息,无需大量标注样本
2.env
从虚拟中学习,反馈迅速,容易实现
3.训练样本
一帧或多帧,作为一次更新的训练样本
4.动作状态序列
state,action,reward     -> new state ...

5.deftine state
用画面隐式地包含状态信息,比如挡板位置,打了多少目标
优点:框架的通用性比较好
缺点:战术型,短期反馈权重高;战略型不太work
reward :
Rt = Rt + r*Rt+1 + r^2*Rt+2
Q(s,a) = max Rt:初始化为查找表
pie(s) = arg max Q(st,at)
pie is called policy
define action:隐含在状态中
define reward:align with frame
对于Q的形式,没有形式化表示
数学证明是收敛的
贝尔曼公式,每次推动一步

6.深入
状态:像素级别的状态太多:四帧80*80的图片
用回归去拟合Q,不work
用DL:
输入状态,输出的是执行每个状态的reward,以作决策
没有pooling的CNN,不损失位置信息

7.用技巧去训练使收敛
1)用随机数epsilo去决定用探索新的策略,还是基于Q的最大值去选择:提供随机性。。类似遗传算法的变异

2)store transition<st,at,Rt+1,St+1> in D
     不是直接学习当前状态,
     而是每一步新添加一个transition到list,然后再随机选择一个来学习
3)每隔C步更新Q函数

8.可视化 FC
视觉不同的画面,在这里看起来比较近
接近人的理解:比如不同场景的得分前夕在一起

9.训练完一个,想转化目标的时候,不是finetune
而是结合既有网络的决策,加权的方式















發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章