强化学习随笔

原創

zidea

2020-10-06 23:22

甜点

虽然早已经过了学习围棋的年龄，大学时候学校举办过各个系围棋联赛。随着参加工作，围棋渐渐被遗忘了。直到 AlphaGo 出现再次引起我对围棋的关注，不过这一次更多眼光放在 AlphaGo 上。

90 年代机器学习看成统计学习，看成统计学习的应用
05 深度学习，强化学习作为深度学习分支
12 年
今天强化学习还是处于阶段

介绍围棋

围棋盛行于亚洲，近些年围棋顶级高手都基本出于中日韩三国。

无气自提
禁止全局同行
地大则胜

博弈论

围棋是有必胜策略，任何 N 步，我们看看博弈论中是如何解释这个问题。任意有限步结束的 0 和博弈有必胜策略。用数学归纳法，假设棋盘只有一个格子，一个人放到这个格子就胜利，我会选择先走，如何放上算失败，那就让对方先走，我就胜利。假设对 N 步成立，要证明 (N+1) 步，游戏(N+1)格子，N+1 步的游戏可以拆成 N+1 个 N 步的游戏，所有 N + 1 步游戏都有必胜策略，全部是先走获胜，会让对手获胜，假设有一个后走人获胜，我选择先走。

强化学习应用

无人机
机器手臂
DiDi 派单
无人驾驶
金融交易
游戏和棋牌
自然语言处理(多轮对话)
<img src="./images/chatbot.jpg">
推荐系统，例如通过将推送商品和内容资源，用户点击就是 reward

机器学习分类

无监督: 被动
有监督/半监督
强化学习(独立一支):
交互过程，智能体(agent)和环境(environment)
环境会给 agent 一个状态(state) ,也可以说 agent 观测(observe)到环境一个状态
环境根据状态(state) 还会给智能体(agent)一个奖励(reward)
智能体可以通过动作(Action)来反馈给环境

基本思路将无监督问题变为有监督问题，方法是通过交互方式来获得交互信息，通过交互信息来产生一种状态。agent 通过环境进行交互，收到状态和奖赏，然后采取动作给反馈。

通过交互产生策略(policy)，
奖赏可以用于定义损失函数

探索(Exploration)和利用(Exploitation)对环境知道是有限，利用已有信息，还是根据已有信息来探索未来。
在强化学习是将训练和测试是混在一起
planning 动态规划
model 如果状态有限可以通过查表方式，如果模型虽然已知，但是空间非常大，就可以动态近似规划
对于环境模型未知的，蒙特卡洛方法
强化学习是序列估计

多学科

强化学习并不是孤立，是与学多学科有关系

控制论，考虑状态连续，所以通过微分方差，机器人问题
运筹学: 马尔可夫决策过程，关注投资和交易
深度学习

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

强化学习随笔

甜点

介绍围棋

博弈论

强化学习应用

机器学习分类

多学科

瀏覽器端的機器學習 tensorflowjs(6) 訓練模型

瀏覽器端的機器學習 tensorflowjs(5) 數據處理

瀏覽器端的機器學習 tensorflowjs(3) 加載 2D 數據

瀏覽器端的機器學習 tensorflowjs(2) 擬合2D數據

通過遺傳算法來優化特徵工程

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結