机器学习十讲第十讲

强化学习

知识回顾

  • 机器学习方法

1624635441149

强化学习

1624635488033

马尔可夫决策

1624635543749

  • S是离散状态;A可能是离散,也可能是连续的;P通常用来描述模型
  • 马尔可夫假设:状态不断转移,随着时间可以写成St→St+1→St+2,而在St+2这个时间段时若给定了St+1状态,那么它跟St及以前的状态是没有关系的。
  • 在马尔可夫决策过程中,最终需要求解一个策略,它是行动和状态之间的映射,分为确定性策略和随机性策略

1624635658063

  • 目标

1624635702670

强化学习的方法分类

1624635805753

  • 状态价值函数

1624635858500

  • 状态-行动价值函数

1624635889634

QLearning

1624635961545

  • 引入参数学习

1624635989982

  • 基于策略方法

1624636039106

小结

  • 机器学习/数据科学的知识体系

数学方面:微积分,概率论,优化方法,统计学

计算机方面:python,数据结构与算法,数据库

数据方面:数据采集,数据管理,数据清洗,数据可视化,分布平台(Hadoop,Spark,Flink)

行业认识:对涉及的领域要有一定的理解,并将其他知识融入进去

  • 学习建议

1624636130907

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章