[RL入门笔记]基本概念以及应用

原創

Ryan Huang

2020-06-24 01:54

学习自百度强化学习打卡营，第?期(忘了)，嘿嘿
(以下部分图片和文字来自百度强化学习团队)

先放上学习资料，强化学习导论(翻译版):
https://rl.qiwihui.com/zh_CN/latest/

1.什么强化学习?

核心思想：智能体agent在环境environment中学习，根据环境的状态state，执行动作action，并根据环境的反馈reward(奖励)来指导更好的动作。

故而强化学习三要素为:

state 状态(全局) / observation 观察值(局部)
action 动作
reward 奖励

2.强化学习举例

在这样一个乒乓球游戏中，我们给定一系列的决策，来看我们最终能否胜利，给一个决策，然后截个图(这个图就是state)，根据这个state得到新的action，该action作用到环境(就是这个游戏)，我们再截个图，就是下一个state，不断重复这个过程，租后我们会得结果是输了还是赢了，这就是reward

可以看到，强化学习是序列决策问题，且奖励延迟

可以再看一个个性化推荐的案例，百度app给用户推荐内容

所以这时，我们的environment为：

可用新闻列表
以及手机前的用户

agent为：

百度app

而强化学习三要素：
action : 百度app给用户推荐的内容
state: 当前推荐列表，以及用户体验
reward:

     (1).用户点开则为正reward；
	 (2).用户未点开则为负的reward；
	 (3).用户离开则为绝对值非常大的负的reward

再看一个比较火的应用：股票

agent：是操盘手
environment：是股票市场

state：股票历史曲线
action：买入金额、卖出金额
reward：股票积累收益

总结一ha：

3.强化学习与其他机器学习的关系：

可以看到，强化学习、监督学习和非监督学习三者并列，而深度学习的发展极大地提高了三者的性能，而Deep RL是现在一个非常热门的领域

监督学习是任务驱动型的，基于分类任务或者回归任务，得到训练数据去训练
非监督学习是数据驱动型的，需要寻找数据内部的区别和联系
强化学习是环境驱动型的，其目的是为了适配环境

再看强化学习和监督学习的对比

可以看到强化学习在于决策，而监督学习在于认知
同时，一般要求，监督学习样本是独立同分布的，监督学习是有天花板上限的，标注能力决定了其上限
而强化学习数据一般要求为序列决策数据，前后样本一般都有联系

4.Agent学习的两种方案：

Agent学习有两种学习方案：基于价值和基于策略

基于价值，是确定性策略，其给每个状态赋予一个价值，来代表这个状态是好还是坏。
故而基于价值的策略，模型只要往价值高的地方走就可以得到高分

基于策略，将策略函数化，直接一条路走到底，用最后的reward来评价策略，而所谓的策略函数就是概率函数，就是每个动作的概率是多少。

而基于价值的确定性策略有： Sarsa、Q-learning、DQN

而基于策略的随机性策略有： Policy gradient

再看一看RL算法的分类概览：

RL有很多仿真平台，最常用的是GYM：

好了基本概念的介绍就到这里了嘿嘿

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[RL入门笔记]基本概念以及应用

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

PNG 格式描述

paddle is not a package

/home/docs/checkouts/xxx/user_builds/sdofjasif/checkouts/latest/doc/source/contents.rst not found

spyder指定python環境

python查找子字符串出現的所有位置

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結