人工智能教程 - 專業選修課程4.3.5 - 強化學習 4.智能體分類,規劃,預測和控制等簡介

智能體分類

Categorizing RL agents

  • 基於價值 Value Based

    • No Policy (Implicit)
    • Value Function
  • 基於行動決策 Policy Based

    • Policy
    • No Value Function
  • 結合價值和行動決策 Actor Critic

    • Policy
    • Value Function
  • 無模型 Model Free

    • Policy and/or Value Function
    • No Model
  • 基於模型的 Model Based

    • Policy and/or Value Function
    • No Model
      在這裏插入圖片描述

在連續決策問題當中的兩個重要方面

Two fundamental problems in sequential decision making

強化學習問題 Reinforcement Learning:

  • 環境是未知的 The environment is initially unknown
  • 需要不斷和環境進行交互 The agent interacts with the environment
  • 不斷的進行學習,改善了它的行動決策 The agent improves its policy

規劃問題 Planning:

  • 環境模型是已知的 A model of the environment is known
  • 不需要和真實的外部環境進行交互,agent有充足的時間根據環境模型進行計算,提前規劃好了一樣 The agent performs computations with its model (without any
    external interaction)
  • 通過這種方式,改善了它的行動決策The agent improves its policy
    a.k.a. deliberation, reasoning, introspection, pondering,
    thought, search

強化學習問題例子

在這裏插入圖片描述

規劃問題例子

在這裏插入圖片描述
需要平衡探索Exploration 和開發Exploitation 的問題

  • 有選擇的放棄某些獎勵,這樣做是爲了找到更多環境的信息
  • Exploration finds more information about the environment
  • 利用已有的信息,最大化獎勵 Exploitation exploits known information to maximise reward
    It is usually important to explore as well as exploit

預測和控制

  • 預測:遵循現在的行動策略,在未來會做什麼
    Prediction: evaluate the future Given a policy
預測的例子

在這裏插入圖片描述

  • 控制:我們該如何得到最優的心動策略
    Control: optimise the future Find the best policy
控制的例子

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章