Topic笔记：reinforcement learning

原創

2020-06-19 13:13

1.define:

sparse and time-delayed labels

弱监督信息，无需大量标注样本

2.env

从虚拟中学习，反馈迅速，容易实现

3.训练样本

一帧或多帧，作为一次更新的训练样本

4.动作状态序列

state,action,reward -> new state ...

5.deftine state

用画面隐式地包含状态信息，比如挡板位置，打了多少目标

优点：框架的通用性比较好

缺点：战术型，短期反馈权重高；战略型不太work

reward :

Rt = Rt + r*Rt+1 + r^2*Rt+2

Q(s,a) = max Rt：初始化为查找表

pie(s) = arg max Q(st,at)

pie is called policy

define action:隐含在状态中

define reward:align with frame

对于Q的形式，没有形式化表示

数学证明是收敛的

贝尔曼公式，每次推动一步

6.深入

状态：像素级别的状态太多：四帧80*80的图片

用回归去拟合Q，不work

用DL:

输入状态，输出的是执行每个状态的reward，以作决策

没有pooling的CNN,不损失位置信息

7.用技巧去训练使收敛

1）用随机数epsilo去决定用探索新的策略，还是基于Q的最大值去选择：提供随机性。。类似遗传算法的变异

2）store transition<st,at,Rt+1,St+1> in D

不是直接学习当前状态，

而是每一步新添加一个transition到list，然后再随机选择一个来学习

3）每隔C步更新Q函数

8.可视化 FC

视觉不同的画面，在这里看起来比较近

接近人的理解：比如不同场景的得分前夕在一起

9.训练完一个，想转化目标的时候，不是finetune

而是结合既有网络的决策，加权的方式

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【转载】技术向：一文读懂卷积神经网络

原文地址：http://toutiao.com/a4033463198/?tt_from=sina&app=news_article&iid=2585754491&utm_medium=toutiao_android&utm_campai

2020-07-07 07:13:56

简单理解CNN的padding如何计算

簡單理解CNN的padding如何計算一、說明二、計算三、技巧分享一、說明先看pytorch卷積層設置參數 nn.Conv2d( in_channels=1, #input height ou

2020-07-07 06:34:28

个人总结：机器学习与算法工程师方向面试题及答案（持续更新）

機器學習與算法工程師方向面試題及答案1.快速排序2.列表中是否有這個數——二分查找3.拉格朗日對偶性4.k-means原理及複雜度5.邏輯迴歸和SVM區別6.過擬合問題怎麼解決7.PCA降維8.特徵工程之特徵選擇、組合、提取、篩選

2020-07-07 06:34:28

ResNet之mxnet、keras、pytorch实现

目錄 1、ResNet50的mxnet實現 2、ResNet的keras實現 3、ResNet的pytorch實現 1、ResNet50的mxnet實現具體網絡結構可參見https://blog.csdn.net/qq_210461

2020-07-05 13:30:37

基于DL的计算机视觉（2）--实现图像分类最简单的方法：KNN

1. 圖像分類問題這是人每天自然而然會做的事情，普通到大部分時候，我們都感知不到我們在完成一個個這樣的任務。早晨起牀洗漱，你要看看洗漱臺一堆東西中哪個是杯子，哪個是你的牙刷；喫早餐的時候你要分辨食物和碗碟… 抽象一下，對於一張輸

2020-07-04 22:45:57

基于DL的计算机视觉（3）-- SVM和Softmax分类器

1. 線性分類器在深度學習與計算機視覺系列(2)我們提到了圖像識別的問題，同時提出了一種簡單的解決方法——KNN。然後我們也看到了KNN在解決這個問題的時候，雖然實現起來非常簡單，但是有很大的弊端：分類器必須記住全部的訓練數

2020-07-04 22:45:57

基于DL的计算机视觉（4）-- SGD

1. 引言上一節深度學習與計算機視覺系列(3)_線性SVM與SoftMax分類器中提到兩個對圖像識別至關重要的概念：用於把原始像素信息映射到不同類別得分的得分函數/score function用於評估參數W效果(評估該參數下

2020-07-04 22:45:57

基于DL的计算机视觉（1）-- Python基础介绍

1.背景計算機視覺/computer vision是一個火了N年的topic。持續化升溫的原因也非常簡單：在搜索/影像內容理解/醫學應用/地圖識別等等領域應用太多，大家都有一個願景『讓計算機能夠像人一樣去”看”一張圖片，甚至”讀

2020-07-04 22:45:57

《机器学习原理算法应用》笔记

文章目錄簡介數學基礎算法基礎貝葉斯分類器決策樹k近鄰數據降維線性判別分析人工神經網絡支持向量機線性模型隨機森林Boosting深度學習卷積神經網絡循環神經網絡生成對抗網絡聚類半監督學習隱馬爾可夫模型條件隨機場強化學習工程實現相關

2020-07-04 07:32:17

【PyTorch】模型部署

Backto PyTorch Index 最佳實踐 Best Practice 2020-07-03 Server/Nvidia ：C++ / TensorRT Mobile/Non-Nvidia : TVM 技術路徑 Pat

北境の守卫

2020-07-03 17:34:31

运行faster-rcnn/pytorch/jwyang版本出现的错误

參考： 1. github https://github.com/jwyang/faster-rcnn.pytorch/tree/pytorch-1.0 2. 運行方法 https://www.cnblogs.com/wind-chase

2020-07-03 09:05:58

softmax中axis参数

從caffe中我們看到softmax有下面這些參數 // Message that stores parameters used by SoftmaxLayer, SoftmaxWithLossLayer message Soft

2020-07-03 03:50:42

FCN全卷积网络的理解

2020-06-30 11:32:48

RL的分类

文章目錄RL算法的分類1. 分類標準一2. 分類標準二2.1 基於model-free的分類標準二Policy OptimizationQ-LearningOn-policy 和 Off-policy RL算法的分類 1. 分類

2020-07-07 08:10:19

RL中的关键概念

文章目錄1. States and Observations2. Action Spaces3. Policies3.1 確定性的策略(Deterministic Policies)3.2 隨機性的策略4. Trajectorie

2020-07-07 08:10:16

24小時熱門文章

微服务实践之使用 Visual Studio 2022 调试Dapr 应用程序

最新文章

最新評論文章