強化學習中,gym的核心接口environment, 以及 render(), reset(), step() ,ob等

  • gym的核心接口是environment,核心方法如下
  1. reset():重置環境狀態,回到初始環境,方便下一次訓練
  2. step(action):完成一個時間步,返回4個值
    1. observation:object, 對環境的觀測
    2. reward:float,即時的獎勵
    3. done:bool 是否需要重置環境(如遊戲這個時間步後遊戲結束)
    4. info :dict 用於調試診斷信息
  3. render():重繪環境圖像
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章