[RL入门笔记]基本概念以及应用

学习自百度强化学习打卡营,第?期(忘了),嘿嘿
(以下部分图片和文字来自百度强化学习团队)

先放上学习资料,强化学习导论(翻译版):
https://rl.qiwihui.com/zh_CN/latest/


1.什么强化学习?

核心思想:智能体agent环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈reward(奖励)来指导更好的动作。
在这里插入图片描述
故而强化学习三要素为:

  • state 状态(全局) / observation 观察值(局部)
  • action 动作
  • reward 奖励
    在这里插入图片描述

2.强化学习举例

在这样一个乒乓球游戏中,我们给定一系列的决策,来看我们最终能否胜利,给一个决策,然后截个图(这个图就是state),根据这个state得到新的action,该action作用到环境(就是这个游戏),我们再截个图,就是下一个state,不断重复这个过程,租后我们会得结果是输了还是赢了,这就是reward
在这里插入图片描述
可以看到,强化学习是序列决策问题,且奖励延迟


可以再看一个个性化推荐的案例,百度app给用户推荐内容
在这里插入图片描述
所以这时,我们的environment为:

  • 可用新闻列表
  • 以及手机前的用户

agent为:

  • 百度app

而强化学习三要素:
action : 百度app给用户推荐的内容
state: 当前推荐列表,以及用户体验
reward:

     (1).用户点开则为正reward;
	 (2).用户未点开则为负的reward;
	 (3).用户离开则为绝对值非常大的负的reward

再看一个比较火的应用:股票
在这里插入图片描述
agent:是操盘手
environment:是股票市场

state:股票历史曲线
action:买入金额、卖出金额
reward:股票积累收益

总结一ha:
在这里插入图片描述

3.强化学习与其他机器学习的关系:
在这里插入图片描述

可以看到,强化学习监督学习非监督学习三者并列,而深度学习的发展极大地提高了三者的性能,而Deep RL是现在一个非常热门的领域

在这里插入图片描述

  • 监督学习是任务驱动型的,基于分类任务或者回归任务,得到训练数据去训练
  • 非监督学习是数据驱动型的,需要寻找数据内部的区别和联系
  • 强化学习是环境驱动型的,其目的是为了适配环境

再看强化学习和监督学习的对比
在这里插入图片描述
可以看到强化学习在于决策,而监督学习在于认知
同时,一般要求,监督学习样本是独立同分布的,监督学习是有天花板上限的,标注能力决定了其上限
而强化学习数据一般要求为序列决策数据,前后样本一般都有联系

4.Agent学习的两种方案:

在这里插入图片描述
Agent学习有两种学习方案:基于价值和基于策略

基于价值,是确定性策略,其给每个状态赋予一个价值,来代表这个状态是好还是坏。
故而基于价值的策略,模型只要往价值高的地方走就可以得到高分

基于策略,将策略函数化,直接一条路走到底,用最后的reward来评价策略,而所谓的策略函数就是概率函数,就是每个动作的概率是多少。

而基于价值的确定性策略有: Sarsa、Q-learning、DQN

而基于策略的随机性策略有: Policy gradient


再看一看RL算法的分类概览:
在这里插入图片描述

RL有很多仿真平台,最常用的是GYM:

在这里插入图片描述
好了基本概念的介绍就到这里了嘿嘿

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章