学习自百度强化学习打卡营,第?期(忘了),嘿嘿
(以下部分图片和文字来自百度强化学习团队)
先放上学习资料,强化学习导论(翻译版):
https://rl.qiwihui.com/zh_CN/latest/
1.什么强化学习?
核心思想:智能体agent在环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈reward(奖励)来指导更好的动作。
故而强化学习三要素为:
- state 状态(全局) / observation 观察值(局部)
- action 动作
- reward 奖励
2.强化学习举例
在这样一个乒乓球游戏中,我们给定一系列的决策,来看我们最终能否胜利,给一个决策,然后截个图(这个图就是state),根据这个state得到新的action,该action作用到环境(就是这个游戏),我们再截个图,就是下一个state,不断重复这个过程,租后我们会得结果是输了还是赢了,这就是reward
可以看到,强化学习是序列决策问题,且奖励延迟
可以再看一个个性化推荐的案例,百度app给用户推荐内容
所以这时,我们的environment为:
- 可用新闻列表
- 以及手机前的用户
agent为:
- 百度app
而强化学习三要素:
action : 百度app给用户推荐的内容
state: 当前推荐列表,以及用户体验
reward:
(1).用户点开则为正reward; (2).用户未点开则为负的reward; (3).用户离开则为绝对值非常大的负的reward
再看一个比较火的应用:股票
agent:是操盘手
environment:是股票市场
state:股票历史曲线
action:买入金额、卖出金额
reward:股票积累收益
总结一ha:
3.强化学习与其他机器学习的关系:
可以看到,强化学习、监督学习和非监督学习三者并列,而深度学习的发展极大地提高了三者的性能,而Deep RL是现在一个非常热门的领域
- 监督学习是任务驱动型的,基于分类任务或者回归任务,得到训练数据去训练
- 非监督学习是数据驱动型的,需要寻找数据内部的区别和联系
- 强化学习是环境驱动型的,其目的是为了适配环境
再看强化学习和监督学习的对比
可以看到强化学习在于决策,而监督学习在于认知
同时,一般要求,监督学习样本是独立同分布的,监督学习是有天花板上限的,标注能力决定了其上限
而强化学习数据一般要求为序列决策数据,前后样本一般都有联系
4.Agent学习的两种方案:
Agent学习有两种学习方案:基于价值和基于策略
基于价值,是确定性策略,其给每个状态赋予一个价值,来代表这个状态是好还是坏。
故而基于价值的策略,模型只要往价值高的地方走就可以得到高分
基于策略,将策略函数化,直接一条路走到底,用最后的reward来评价策略,而所谓的策略函数就是概率函数,就是每个动作的概率是多少。
而基于价值的确定性策略有: Sarsa、Q-learning、DQN
而基于策略的随机性策略有: Policy gradient
再看一看RL算法的分类概览:
RL有很多仿真平台,最常用的是GYM:
好了基本概念的介绍就到这里了嘿嘿