EXPLORING MODEL-BASED PLANNING WITH POLICY NETWORKS

原創

2023-04-28 13:35

發表時間：2020（ICLR 2020）
文章要點：這篇文章說現在的planning方法都是在動作空間裏randomly generated，這樣很不高效（其實瞎扯了，很多不是隨機的方法啊）。作者提出在model based RL裏用policy網絡來做online planning選擇動作，提出了model-based policy planning (POPLIN)算法。作者提出了兩個變種，model-based policy planning in action space (POPLIN-A)和model-based policy planning parameter space (POPLIN-P)。
具體的，POPLIN-A就是用一個policy network來生成動作序列，然後用CEM來fine-tune確定最終的動作。這個CEM就是假定了一個高斯分佈，然後在動作序列上添加這個高斯噪聲來看效果是提升還是減少，然後再優化這個高斯分佈使得最終的return最大。

這裏作者又細分了兩個方法，POPLIN-A-Init和POPLIN-A-Replan。POPLIN-A-Init就是說policy network只用來生成最初的動作序列，剩下的fine-tune交給CEM去做。

POPLIN-A-Replan就是說每次都會用policy network重新plan一下。

另一個算法POPLIN-P，這個和POPLIN-A的區別就是CEM的噪聲是加在網絡的參數上的，而不是動作空間上的

總結：之前還感覺沒有任何新東西，算法也是別人早就提過，就是做試驗了，可能圖畫的比較好看吧。不過做實驗應該也挺辛苦的。
疑問：確實不太清楚創新點在哪。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

前言今天大姚給大家分享一款基於C#、WPF、Prism、MaterialDesign、HandyControl開發的通訊調試工具（支持Modbus RTU、MQTT調試，界面色彩豐富）：Wu.CommTool。工具特點工具界面色彩豐

2024-05-19 14:21:58

Linux/Golang/glibC系統調用

Linux/Golang/glibC系統調用本文主要通過分析Linux環境下Golang的系統調用，以此闡明整個流程有時候涉略過多，反而遭到質疑~，寫點文章證明自己實力也好 Golang系統調用找個函數來分析 https://pk

藍天上的雲℡

2024-05-19 14:21:17

讓python代碼找到文件路徑的最好方法

也就是算出絕對路徑傳進去. import os wenjian='/'.join(os.path.abspath(__file__).split('/')[:-2])+'/' with open(wenjian+"meddata.jso

張博的博客

2024-05-19 14:19:47

Python 潮流週刊#51：用 Python 繪製美觀的圖表

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-05-19 14:19:07

MASM中的向前引用（Forward Reference）

當程序需要引用尚未定義的變量或標號時，編譯器會如何處理呢，這就涉及到向前引用（Forward Reference）的概念。一、Forward Reference的概念程序引用到之前尚未定義的變量(Variable)、標號(L

2024-05-19 14:11:37

[MASM拾遺]Offset僞指令

Offset僞指令我一直都認爲只是獲取標識符在段中的偏移地址，但經研究，發現了部分違反直覺的細微區別： 1、在完整端聲明(Full segment definition)的模式下如果offset mygroup:myvar或o

2024-05-19 14:11:37

【Python】強化學習SARSA走迷宮

之前有實現Q-Learning走迷宮，本篇實現SARSA走迷宮。 Q-Learning是一種off-policy算法，當前步採取的決策action不直接作用於環境生成下一次state，而是選擇最優的獎勵來更新Q表。更新公式： SARSA

2024-05-19 14:11:07

h28 HTML Javascript

A script is a small piece of program that can add interactivity to our websites. For example, a script could generate a

2024-05-19 14:10:26

h29 HTML Layouts

The HTML Layouts specifies the arrangement of components on an HTML web page. A good layout structure of the webpage i

2024-05-19 14:10:26

h27 HTML Adding Favicon

What is a HTML Favicon? A favicon is a small image that represents your website and helps users identify it among mult

2024-05-19 14:10:26

h30 HTML Layout Elements

The Layout Elements of HTML In HTML, there are various semantic elements that are used to define different parts of a

2024-05-19 14:10:26

h31 HTML Layout using CSS

Now we all have learned various techniques to design an HTML layout including tables and semantic elements. We are ver

2024-05-19 14:10:26

CSS Cascading Style Sheet

cs01 CSS Syntax cs02 CSS Selectors cs03 CSS Inclusion cs04 CSS Measurement Units cs05 CSS Paddings Property REF http

2024-05-19 14:10:26

cs04 CSS Measurement Units

Values and units, in CSS, are significant as they determine the size, proportions, and positioning of elements on a web

2024-05-19 14:10:26

cs01 CSS Syntax

A CSS comprises of style rules that are interpreted by the browser and then applied to the corresponding elements in you

2024-05-19 14:10:26

24小時熱門文章

Shell/Python中的用戶名獲取

最新文章

最新評論文章