人工智能教程 - 專業選修課程4.3.5 - 強化學習 12.無模型預測,蒙特卡羅強化學習

無模型預測

Model-Free Prediction

蒙特卡羅強化學習

Monte-Carlo Reinforcement Learning

  • 從經歷完整的經驗序列來估計狀態值 MC methods learn directly from episodes of experience
  • 無模型,不清楚MDP的狀態轉移和獎勵
    MC is model-free: no knowledge of MDP transitions / rewards
  • 完整的經驗序列 MC learns from complete episodes: no bootstrapping
  • 價值=收穫的平均值 MC uses the simplest possible idea: value = mean return
  • Caveat: can only apply MC to episodic MDPs
    • 必須終止,才能得到平均值 All episodes must terminate

蒙特卡羅學習策略評估

在這裏插入圖片描述

在這裏插入圖片描述

二十一點的例子

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章