Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

原創

2024-03-01 13:35

发表时间：2021(IEEE Transactions on Neural Networks and Learning Systems)
文章要点：这篇文章提出一个新的experience replay的方法，improved SAC (ISAC)。大概思路是先将replay buffer里面好的experience单独拿出来作为好的experience。然后再混合当前最新收集的样本一起用来更新，就相当于好的off-policy data混合最新的on-policy data。
具体做法就是将experience的累积回报也存下来，作为这个transition的得分，然后先随机选多个mini batch,文中是两个，再找这里面得分最高的，最后再和当前最新的on policy的数据混合起来训练网络。另外，直接对着最好的样本训练可能会overfitting，因为训练到后期可能估计都差不多，得分也差不多，再找得分最高的状态可能就都是相似的状态了。作者的做法是比较两个batch的相似度，如果得分太相似，那就还是随机采样，不取得分最高的样本。作者通过余弦相似度，以及设计阈值实现

最后看效果，感觉就是没有任何效果。。。

总结：感觉没啥效果。找文章还是得找顶会这边的。
疑问：里面这个相似度的度量感觉不是很靠谱啊，应该还要考虑样本得分的排序吧，不然相似度也会不一样。而且这个公式都写错了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

容器运行时Containerd

sudo ctr image import image.tar #導入docker鏡像 sudo ctr image list #顯示鏡像列表 sudo ctr containers list #列出容器列表

2024-05-12 14:32:51

Shopify Theme 开发 —— 性能优化

一、概述關於 Shopify Theme 的性能優化，通常有以下幾點： 1、卸載未使用的應用程序有些 app 會在 theme 裏面插入一些代碼，即使 app 未被使用，也可能會加載一些腳本文件，影響頁面渲染速度，所以建議不使用的 ap

2024-05-12 14:28:51

爬虫selenium解决网页空白问题

from selenium.webdriver import Chrome import time # https://blog.csdn.net/zhoukeguai/article/details/113247342 # driver

張博的博客

2024-05-12 14:25:11

接口请求软件, 后端必备

apifox, 完全免費軟件, 比postman好用, 性能高, 推薦給每一個童鞋.

張博的博客

2024-05-12 14:25:11

Python 潮流周刊#50：我最喜欢的 Python 3.13 新特性！

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期分享了 12 篇文

豌豆花下貓

2024-05-12 14:24:30

vue绑定对象，绑定的值不改变的问题

在使用vue結合elmentui的table組件，對數組綁定，需要編輯數組裏一些屬性的值。我的情況是，需要在打開這個表時，根據條件插入一些對象到table裏，經測試，到這裏是沒問題的，可以顯示新插入的對象。問題在於，當我改變這些新插入對象的

2024-05-12 14:22:30

PLY文件格式及cpp解析

PLY (Polygon File Format, 多邊形文件格式)文件用於存儲Geometry Object Data(包括vertices, face and other element頂點/面片/其它屬性) 文件格式： Header

2024-05-12 14:18:50

UBUNTU无法上网的解决

一.網絡圖標不見的應對方法1、刪除NetworkManager緩存文件service NetworkManager stop rm /var/lib/NetworkManager/NetworkManager.state service N

2024-05-12 14:18:40

前端使用 Konva 实现可视化设计器（10）- 对齐线

請大家動動小手，給我一個免費的 Star 吧~ 大家如果發現了 Bug，歡迎來提 Issue 喲~ github源碼 gitee源碼示例地址不知不覺來到第 10 章了，感覺接近尾聲了。。。對齊線先看效果：這裏交互有兩個部分：

2024-05-12 14:13:19

AFL漏洞挖掘技术漫谈（一）：用AFL开始你的第一次Fuzzing

https://www.freebuf.com/articles/system/191543.html 一、前言模糊測試（Fuzzing）技術作爲漏洞挖掘最有效的手段之一，近年來一直是衆多安全研究人員發現漏洞的首選技術。AFL、LibFu

2024-05-12 14:11:19

使用c#强大的表达式树实现对象的深克隆

一、表達式樹的基本概念表達式樹是一個以樹狀結構表示的表達式，其中每個節點都代表表達式的一部分。例如，一個算術表達式 a + b 可以被表示爲一個樹，其中根節點是加法運算符，它的兩個子節點分別是 a 和 b。在 LINQ（語言集成查詢）中，

2024-05-12 14:10:39

SQL SERVER 数据库清空语句忽略外键触发器等（转载）

有時候我們想清空SQL Server中所有表的數據，但是由於有外鍵約束和觸發器，有時候清表語句無法執行，下面的語句可以關掉和開啓一個數據庫中的所有外鍵約束和觸發器，以便執行清表語句： USE ClothesShop EXECUTE sp

2024-05-12 14:08:28

从零手写实现 tomcat-11-filter 过滤器

創作緣由平時使用 tomcat 等 web 服務器不可謂不多，但是一直一知半解。於是想着自己實現一個簡單版本，學習一下 tomcat 的精髓。系列教程從零手寫實現 apache Tomcat-01-入門介紹從零手寫實現 apach

2024-05-12 14:04:58

Java开发利器Commons Lang之元组Tuple

標準Java庫沒有提供足夠的方法來操作其核心類，Apache Commons Lang提供了這些額外的方法。 Apache Commons Lang爲java提供了大量的幫助工具。lang API，特別是String操作方法、基本數值

2024-05-12 14:03:48

诈骗（杀猪盘）网站进行渗透测试

今天朋友突然告訴我，某轉買手機被騙了1200塊錢，心理一驚，果然不出所料，那我來試試吧。要來了詐騙網站地址，打開是這種：果斷收集一下信息：（由於留言騙子返還朋友錢款，暫時給他留點面子，打點馬賽克）查看端口，一猜就是寶塔面板搭建開着80，

斑林鴿的代碼世界

2024-05-12 14:02:58

24小時熱門文章

Python 潮流周刊#50：我最喜欢的 Python 3.13 新特性！

最新文章

最新評論文章