Learning Off-Policy with Online Planning

原創

2023-04-23 13:32

發表時間：2021（CoRL 2021）
文章要點：這篇文章提出Off-Policy with Online Planning (LOOP)算法，將H-step lookahead with a learned model和terminal value function learned by a model-free off-policy結合起來，做online planning。然後提出一個Actor Regularized Control (ARC)方法來解決Actor Divergence問題。
具體的，就是去學一個model，然後選動作的時候就基於model選使得累積回報最大的動作

最後的這個value是在訓強化的時候得到的。這裏有個問題就是，做online planning的策略和訓練value的策略不是同一個策略，會導致online planning得到的動作不一定是最好的，這個作者就叫做Actor Divergence，作者提的方法就是在最大化回報的同時控制這兩個策略的距離

然後就結束了。
總結：不知道點在哪，感覺就沒有創新。
疑問：感覺這文章沒啥新東西啊，也不知道怎麼就能發了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

iNeuOS工業互聯網操作系統，增加電力IEC104協議

1. 概述... 2 2. 配置IEC104協議設備驅動... 2 1. 概述　　IEC60870-5-104 是一種電力自動化系統中常用的通信協議，使用 TCP/IP 協議作爲底層通信協議，用於監視和控制電

唯笑志在-ineuos.net

2024-05-29 14:29:22

【Mac】前後端分離項目（springboot + vue）用nginx部署

步驟 npm run build 把項目打包到dist目錄下。新建vue.config.js const { defineConfig } = require('@vue/cli-service') module.exports = d

金大鑫要堅持

2024-05-29 14:27:52

圖牀PicGo

https://github.com/Molunerfinn/PicGo https://github.com/Molunerfinn/PicGo

2024-05-29 14:25:52

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

自託管模式運行dapr 新建訂閱webapi項目,取名爲backend 項目增加docker支持，取消https支持修改Program.cs var builder = WebApplication.CreateBuilder(args)

2024-05-29 14:25:52

編程循環（2024-5-29）

找了下go的介紹，看了一下爲什麼處理併發好。有小線程和通道。小線程是在線程的基礎上，go自己維護的線程，減少線程切換的開銷和更靈活分配空間。通道可以在線程之間通訊，是個先進先出的管道，大概是收到數據就觸發繼續執行，就像等待系統輸入一樣

2024-05-29 14:24:02

向量數據庫HNSW算法

向量數據庫構建好embedding後，需要通過相關算法進行檢索，它常用到的相似性搜索算法有HNSW，HNSW算法是NSW算法改進而來,它是屬於ANN算法中不同類別的圖類別中的一種。節點與節點之間的連接方式可以形成3類圖：正則圖，隨

人不瘋狂枉一生

2024-05-29 14:23:51

一個 .NET 開源的地圖組件庫 - Mapsui

前言今天大姚給大家分享一個.NET開源（MIT License）、免費、同時支持多平臺框架（MAUI、WPF、Avalonia、Uno、Blazor、WinUI、Eto、.NET Android 和 .NET iOS）地圖組件庫：Maps

2024-05-29 14:22:51

Windows下的mysql安裝(解壓版)

Windows 安裝並配置 MySQL 5.6_mysql 5.6 安裝-CSDN博客

2024-05-29 14:22:31

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

目前 AI 繪畫領域的產品非常多，比如 Midjourney、Dalle3、Stability AI 等等，這些產品大體上可以分爲兩類：模型與產品深度融合：比如 Midjourney、Dalle3 等等。模型與產品分離：比如 SD W

米開朗基楊

2024-05-29 14:22:21

huggingface 下載與訓練模型時會報 SSLERROR 連接錯誤，解決辦法如下

我用方案一解決解決方案方案1：使用代理（需要梯子）在你的 Python 代碼的開頭加上如下代碼 import os os.environ['HTTP_PROXY'] = 'http://proxy_ip_address:port'

2024-05-29 14:19:51

（三）SQL基礎-設置主鍵爲自增序列

一、如何設置主鍵爲自增標誌注意：這個設置必須要在創建表之前設置好，不然會報錯無法修改。

代號六零一

2024-05-29 14:18:10

《最新出爐》系列入門篇-Python+Playwright自動化測試-49-Route類攔截修改請求-下篇

1.簡介在日常工作和學習中，自動化測試的時候：在加載頁面時，可能頁面出現很多不是很重要或者不是我們所關注的，這個時候我們就可以選擇不加載這些內容，以提高頁面加載速度，節省資源。例如：可能頁面上圖片比較多，而我們又不關心圖片內容。那麼，在

2024-05-29 14:15:30

springboot~封裝依賴引用包jar還是pom，哪種更規範

將多個第三方包封裝成一個項目後，如果你的目的是讓其他開發人員可以直接引用這些依賴，一般來說有兩種常見的方式：打成JAR包：將封裝好的項目編譯打包成JAR文件，其他開發人員可以將這個JAR文件添加到他們的項目中，並在項目的構建工具（比如

2024-05-29 14:13:20

kbgressdb之數據結構V0.2

前言原本計劃2024.05.01日開始編碼，直到2024.05.21日纔開始編碼，因爲在2024.05.19日才感覺體力恢復到了九成，然後就開始kbgressdbV0.2版本設計，經過一週的推演與構思，終於在2024.05.29日完成V0

2024-05-29 14:11:40

css03 CSS Selectors

https://www.w3schools.com/css/css_selectors.asp A CSS selector selects the HTML element(s) you want to style. CSS Selec

2024-05-29 14:11:29

24小時熱門文章

最新文章

最新評論文章