Experience Replay with Likelihood-free Importance Weights

原創

2023-08-14 13:32

發表時間：2020
文章要點：這篇文章提出LFIW算法用likelihood作爲experience的採樣權重（likelihood-free density ratio estimator），reweight experiences based on their likelihood under the stationary distribution of the current policy，這種方式鼓勵讓經常訪問的狀態有更小的誤差估計（encourage small approximation errors on the value function over frequently encountered states）。
大概思路是維護兩個buffer

Slow replay buffer存所有樣本\(d^D\)，fast replay buffer存on-policy的樣本\(d^\pi\).然後採樣基於ratio \(d^\pi (s,a)/d^D (s,a)\)，作者如下估計ratio

最後更新爲

效果上看，在一些環境上是有效果的

總結：思路就是儘量採on-policy的樣本，給他們賦予更高的權重。
疑問：其實不是很明白爲啥這個ratio會好。
圖裏看有的效果不如SAC，爲啥在table裏又是這個方法在所有環境上都好了，統計方法不一樣？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《期貨-市場技術分析》讀書筆記

第二本技術分析書籍，《期貨-市場分析技術》：書中的很多內容，如趨勢、趨勢線、阻力、支撐等，也象《日本蠟燭圖》一樣，沒有邏輯推理過程，沒有數據驗證。但是我認可其確實有一定的心理暗示作用。因爲我在聽很多技術分析大 V 的視頻時，他們中的大部

2024-04-29 14:32:19

《日本蠟燭圖》讀書筆記 & 技術分析回測

最近想做一些現金流的策略，所以決定把技術分析研究得更加深入一些。朋友推薦了幾本書：《日本蠟燭圖》、《期貨市場技術分析》、《纏論》，我想挨個把它們看完，同步也嘗試做一些量化技術策略。日本蠟燭圖下面這本書就是上面所說的第一本：其實，我是

2024-04-29 14:32:19

pytest lastfailed原理

相信很多使用pytest的，都知道pytest有運行上次失敗用例的參數，如下： --lf, --last-failed rerun only the tests that failed at the last run (or all

2024-04-29 14:24:29

一個開源輕量級的C#代碼格式化工具（支持VS和VS Code）

前言 C#代碼格式化工具除了ReSharper和CodeMaid，還有一款由.NET開源、免費（MIT License）、輕量級的C#語言代碼格式化工具：CSharpier。工具介紹 CSharpier是一款開源、免費、輕量級的C#語言代

2024-04-29 14:22:08

頂級 Javaer 都在用的 20 個類庫，真香！

優秀且經驗豐富的Java開發人員的特徵之一是對API的廣泛瞭解，包括JDK和第三方庫。我花了很多時間來學習API，尤其是在閱讀了Effective Java 3rd Edition之後，Joshua Bloch建議在Java 3rd E

2024-04-29 14:21:48

Linux內核之SPI協議

SPI(Serial Peripheral Interface，串行外設接口)是一種同步串行的行業標準，但是並沒有像I2C那樣有標準文檔，它還有主從、可片選的特性。圖源自Serial Peripheral Interface-wikip

藍天上的雲℡

2024-04-29 14:21:38

mongodb處理json數據很好

mysql只適合處理簡單的一級數據表複雜嵌套的json用mongodb mongodb實現: 插入: //切記數字不要帶引號,帶引號就字符串了,就無法比較大小了. //每一個對象都用{}包起來.這樣查詢時候方便多了.雖然插入寫起

張博的博客

2024-04-29 14:20:08

【Nano Framework ESP32篇】使用 LCD 屏幕

在開始主題之前，先介紹一個刷固件工具。這個工具在 idf 中是集成的，不過，樂鑫也單獨發佈了這個工具—— esptool。下載鏈接：Releases · espressif/esptool · GitHub。這貨是用 Python 寫的，只

2024-04-29 14:16:57

雙token+redis（token無感刷新）

爲什麼要使用雙token+redis呢？單token+redis+自動續期不行嗎？單token+redis的缺點：可能會出現用戶正在操作的時候，token過期了，讓用戶重新登錄的情況。單token+redis+自動續期的缺點：單to

2024-04-29 14:15:37

cookie,session,token的區別

cookie,session,token它們本質上不是同一個東西。但是都跟維持狀態信息有關係。什麼是狀態信息呢？我來用一個登錄來個大家講解。如果我們登錄以後，希望後續的所有的頁面都維持登錄的狀態，那我們就需要用剛剛講到的cookie，

2024-04-29 14:15:37

Asp .Net Core 系列：國際化多語言配置

目錄概述術語本地化器IStringLocalizer在服務類中使用本地化IStringLocalizerFactoryIHtmlLocalizerIViewLocalizer資源文件區域性回退配置 CultureProvider內置的 Re

2024-04-29 14:14:57

編譯原理PL0語法分析實驗1

編譯原理PL0語法分析實驗1 1，待分析的簡單語言的詞法相同點：都是分析種別碼不同點：詞法分析器分析的是字符串中的單詞的種別碼（單詞）語法分析器分析的是字符串的文法是否正確（句子）待分析的簡單語言的語法 BNF：（1）<程序>::=begi

2024-04-29 14:13:26

google瀏覽器插件開發

項目結構在開發Chrome插件時，以下幾個文件的作用如下： manifest.json：這是Chrome插件的清單文件，用於配置插件的基本信息、權限、頁面跳轉等。其中包括插件的名稱、版本號、圖標、後臺腳本、瀏覽器動作等信息。 ba

2024-04-29 14:12:46

element表單中選擇 el-date-picker 選擇後沒反應

折騰一早上沒有用直到百度到了 https://blog.csdn.net/KeepReal666/article/details/134471038 解決辦法：直接加上@input="$forceUpdate()"即可。

2024-04-29 14:09:56

什麼是SQL 語句中相關子查詢與非相關子查詢

1.什麼是SQL子查詢要理解相關子查詢和非相關子查詢，我們得首先理解什麼是子查詢，子查詢是指在一個查詢語句中嵌套的另一個查詢語句。子查詢可以嵌套在其他查詢語句中，如 SELECT、INSERT、UPDATE、DELETE 等，它作爲一個

2024-04-29 14:06:35

24小時熱門文章

最新文章

最新評論文章