大家好, 我剛剛做了一個簡單的2D連續座標柵格地圖, GridMap. 我們使用GridMap進行我們的強化學習 ( reinforcement learning )算法驗證.
在GridMap中, 用戶可以創建一個起始block和一個終止block, 另加多個障礙block. 雖然稱爲柵格圖, 但agent座標是連續值. 用戶可以定義不同block類型的reward/penalty值. 地圖和環境可以分別保存爲JSON文件供用戶查看, 修改, 和批量化生成.
示例地圖和訓練完畢的policy的路徑如下圖所示.
其中綠色爲起始block, 藍色爲終止block, 紅色爲障礙block. 終止block可配置爲一個圓形區域.
源碼在我的github頁面上. 請訪問我的個人主頁獲取更詳細信息.