Learning model-based planning from scratch

原創

2023-03-28 13:34

發表時間：2017
文章要點：這篇文章想說，之前的文章去做planning的時候，都會去設計一個planning的方法。這篇文章提出了一個端到端的方法，Imagination-based Planner，不去設計planning的方式，做到全部的端對端訓練，agent會決定什麼時候去planning（imagine），什麼時候去真實環境裏面做動作（act）。模型主要包括這幾個模塊：manager用來決定是imagine還是act，controller用來執行動作，imagination是一個model用來預測狀態轉移，memory就相當於buffer。然後planning的時候就相當於policy rollout，只是rollout的結構有區別，“1-step”,“n-step”,and“tree”。要麼一個狀態planning多次，要麼planning一條長軌跡，要麼二者的折中

訓練的目標函數就是最大化外部reward，以及最小化planning的計算量。訓練方式就是REINFORCE和stochastic value gradients (SVG)，然後就沒了。
總結：感覺很不靠譜啊。。。
疑問：無。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PHP響應SSE

使用PHP創建一個SSE響應來與客戶端保持連接 <?php header('Content-Type: text/event-stream'); header('Cache-Control: no-cache'); header('Conn

2024-04-17 14:31:01

運行python安裝包沒找到

一、錯誤信息 ImportError: dlopen(/Users/menghuiding/Library/Python/3.8/lib/python/site-packages/PIL/_imaging.cpython-38-darwin

流年中渲染了微笑

2024-04-17 14:30:31

[RoCE] 通過QoS對Mellanox網卡進行限速

參考資料： Quality of Service (QoS) - NVIDIA Docs 【RDMA】RoCE網絡QoS|應用層設置PFC等級|Tos|Priority|TC_cma_roce_tos-CSDN博客【RDMA】mellon

2024-04-17 14:29:00

基於Material Design風格開源、易用、強大的WPF UI控件庫

前言今天大姚給大家分享一款基於Material Design風格開源、免費（MIT License）、易於使用、強大的WPF UI控件庫：MaterialDesignInXamlToolkit。項目介紹 MaterialDesignIn

2024-04-17 14:22:20

vscode 配置go環境

https://www.zhihu.com/question/486786946/answer/2723663432 注意一定要安裝最新版,否則不容易debug //main.go package main //說明hello.go這個文件

張博的博客

2024-04-17 14:20:20

記一次棧溢出異常問題的排查

剛修改的服務，推到開發環境之後，總是時不時的崩潰，但是不知道爲什麼。嘗試找到他的最後一次調用，也沒有復現。沒有辦法，只能抓dump了。開啓崩潰自動dump，網絡上很多，不贅述了。拿到dump之後，首先看看是什麼類型的異常如圖所示，

2024-04-17 14:20:10

基於Ordinals在比特幣L1網絡實現EVM圖靈完備智能合約支持——BxE協議

1. BxE項目背景區塊鏈技術自誕生以來，爲金融、供應鏈、數字身份等領域帶來了變革性的創新。然而，作爲第一個成功應用區塊鏈技術的比特幣，存在着一些侷限性，如較低的交易吞吐量、較高的能源消耗以及有限的腳本功能。這使得比特幣在支持複雜應用和智

2024-04-17 14:18:19

C++定義，繼承和虛函數

類定義方式一般有兩種 Base b和Base b(3);一種不帶參數，一種帶參數，這兩種實例定義會在範圍結束自動釋放。 Base *c = new Base;和Base *c = new Base(5);沒有參數可不加括號。通過new申請的

2024-04-17 14:17:49

C++ list erase

原文：https://www.cnblogs.com/yelongsan/p/4050404.html STL中的容器按存儲方式分爲兩類，一類是按以數組形式存儲的容器（如：vector 、deque)；另一類是以不連續的節點形式存儲的容器（

2024-04-17 14:17:49

記一次 .NET某爐膛鍋爐檢測系統崩潰分析

一：背景 1. 講故事上個月有個朋友在微信上找到我，說他們的軟件在客戶那邊隔幾天就要崩潰一次，一直都沒有找到原因，讓我幫忙看下怎麼回事，確實工控類的軟件環境複雜難搞，朋友手上有一個崩潰的dump，剛好丟給我來分析一下。二：WinDbg分

2024-04-17 14:16:09

工具問題記錄

1. notepad++ 搜索定位卡住：　　及時清理文件夾 C:\Usersladmin\AppDatalRoaming\Notepad++\backup。

風影我愛羅

2024-04-17 14:11:59

使用 SecureCRT 合併tab標籤

1.關閉SecureCRT / FX的所有實例 2.找到SecureCRT的配置文件目錄，不知道在哪裏的，可以在Options -> Global Options -> General -> Configuration Paths 中查看，

2024-04-17 14:10:19

T-SQL——關於時間段類報表

目錄1.背景說明2.簡單示例 shanzm-2024-4-3 11:11:20 1.背景說明需要查詢一個以時間段爲列的報表可以篩選除各個時間段進行連接查詢出來可以通過 Case When 將時間差轉爲時間段，在進行轉列 2.

2024-04-17 14:10:19

T-SQL——關於求百分比

目錄1.SQL取百分比2.C#取百分比3.JS取百分比 shanzm-2024-4-16 21:21:45 1.SQL取百分比示例0：求1/3後取百分比，保留兩位小數 SELECT CAST(CAST(1 * 1.0 * 100 / 3

2024-04-17 14:10:19

前端使用 Konva 實現可視化設計器（5）

關於第三章提到的 selectingNodesArea，在後續的實現中已經精簡掉了。而 transformer 的 dragBoundFunc 中的邏輯，也直接移動 transformer 的 dragmove 事件中處理。請大家

2024-04-17 14:08:28

24小時熱門文章

實操|基於OceanBase打造更穩定的Zabbix監控系統

最新文章

最新評論文章