强化学习随笔

甜点

虽然早已经过了学习围棋的年龄,大学时候学校举办过各个系围棋联赛。随着参加工作,围棋渐渐被遗忘了。直到 AlphaGo 出现再次引起我对围棋的关注,不过这一次更多眼光放在 AlphaGo 上。

  • 90 年代机器学习看成统计学习,看成统计学习的应用
  • 05 深度学习,强化学习作为深度学习分支
  • 12 年
  • 今天强化学习还是处于阶段

介绍围棋

围棋盛行于亚洲,近些年围棋顶级高手都基本出于中日韩三国。

  • 无气自提
  • 禁止全局同行
  • 地大则胜

博弈论

围棋是有必胜策略,任何 N 步,我们看看博弈论中是如何解释这个问题。任意有限步结束的 0 和博弈有必胜策略。用数学归纳法,假设棋盘只有一个格子,一个人放到这个格子就胜利,我会选择先走,如何放上算失败,那就让对方先走,我就胜利。假设对 N 步成立,要证明 (N+1) 步,游戏(N+1)格子,N+1 步的游戏可以拆成 N+1 个 N 步的游戏,所有 N + 1 步游戏都有必胜策略,全部是先走获胜,会让对手获胜,假设有一个后走人获胜,我选择先走。

强化学习应用

  • 无人机


  • 机器手臂


  • DiDi 派单


  • 无人驾驶

  • 金融交易

  • 游戏和棋牌

  • 自然语言处理(多轮对话)
    <img src="./images/chatbot.jpg">

  • 推荐系统,例如通过将推送商品和内容资源,用户点击就是 reward

机器学习分类

  • 无监督: 被动

  • 有监督/半监督

  • 强化学习(独立一支):


  • 交互过程,智能体(agent)和环境(environment)

  • 环境会给 agent 一个状态(state) ,也可以说 agent 观测(observe)到环境一个状态

  • 环境根据状态(state) 还会给智能体(agent)一个奖励(reward)

  • 智能体可以通过动作(Action)来反馈给环境

基本思路将无监督问题变为有监督问题,方法是通过交互方式来获得交互信息,通过交互信息来产生一种状态。agent 通过环境进行交互,收到状态和奖赏,然后采取动作给反馈。

通过交互产生策略(policy),
奖赏可以用于定义损失函数

  • 探索(Exploration)和利用(Exploitation)对环境知道是有限,利用已有信息,还是根据已有信息来探索未来。

  • 在强化学习是将训练和测试是混在一起

  • planning 动态规划

  • model 如果状态有限可以通过查表方式,如果模型虽然已知,但是空间非常大,就可以动态近似规划

  • 对于环境模型未知的,蒙特卡洛方法

  • 强化学习是序列估计

多学科

强化学习并不是孤立,是与学多学科有关系

  • 控制论,考虑状态连续,所以通过微分方差,机器人问题
  • 运筹学: 马尔可夫决策过程,关注投资和交易
  • 深度学习
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章