GridMap: 一個用於強化學習 (reinforcement learning) 訓練的二維連續座標柵格地圖

大家好, 我剛剛做了一個簡單的2D連續座標柵格地圖, GridMap. 我們使用GridMap進行我們的強化學習 ( reinforcement learning )算法驗證.

在GridMap中, 用戶可以創建一個起始block和一個終止block, 另加多個障礙block. 雖然稱爲柵格圖, 但agent座標是連續值. 用戶可以定義不同block類型的reward/penalty值. 地圖和環境可以分別保存爲JSON文件供用戶查看, 修改, 和批量化生成.

示例地圖和訓練完畢的policy的路徑如下圖所示.

地圖示例

 

其中綠色爲起始block, 藍色爲終止block, 紅色爲障礙block. 終止block可配置爲一個圓形區域.

 

源碼在我的github頁面上. 請訪問我的個人主頁獲取更詳細信息.

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章