State Distribution-aware Sampling for Deep Q-learning

原創

2024-02-24 13:32

發表時間：2018(Neural Processing Letters 2019)
文章要點：這篇文章認爲之前的experience replay的方法比如PER沒有將transition的分佈情況考慮在內，於是提出一個新的experience replay的方法，將occurrence frequencies of transitions和uncertainty of state-action values考慮在內。
作者的出發點是，agent通常從一些初始狀態開始，所以離這些狀態越近的狀態肯定被探索的越多，這就導致buffer裏的狀態是skew的，所以直接均勻採樣更像是occurrence frequencies-based sampling，對於出現少的狀態很少會更新對應的Q(s,a)，這就會導致對經常出現的狀態更新過多，出現較少的狀態更新太少。所以作者用靜態哈希表將狀態聚類，然後根據類別和每類的樣本數定義採樣概率

這裏第一項就是完全的隨機採樣，第二項裏k指k個類別，\(num_i\)表示樣本i所屬類別一共有多少個樣本。所以第二項裏，如果某個類別裏的樣本很多，那抽到裏面某個樣本的可能性就小。下圖描述了採樣的區別，可以看到這種綜合加純隨機，同時也考慮了樣本分佈的概率採樣會更加均勻

不過最後效果看起來，沒有很大的提升

總結：道理上是make sense的，但是結果看起來也不是很明顯。
疑問：是不是其實sampling留給大家做的空間已經不大了啊，看了這麼多文章，感覺提升都很小。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

faiss簡單測試方法

先把倉庫克隆到本地，我這邊還需要改cmake環境，在project上面加 set(CMAKE_CUDA_COMPILER /usr/local/cuda-11.8/bin/nvcc) 構建 mkdir build cmake -B bui

2024-04-28 14:29:59

WPF & Prism

WPF編程-Prism 世有伯樂，然後有千里馬。千里馬常有，而伯樂不常有。一、背景 Winform和WPF 1. WinForms和WPF 技術架構： WinForms是基於傳統的窗體和控件的技術，使用的是類

2024-04-28 14:25:08

一個庫幫你輕鬆的創建漂亮的.NET控制檯應用程序

前言做過.NET控制檯應用程序的同學應該都知道原生的.NET控制檯應用程序輸出的內容都比較的單調，假如要編寫漂亮且美觀的控制檯輸出內容或者樣式可能需要花費不少的時間去編寫代碼和調試。今天大姚給大家分享一個.NET開源且免費的類庫幫你輕鬆的

2024-04-28 14:22:48

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

大家好，我是R哥。說說最近的面試輔導，有個學員進了某個知名互聯網公司，拿到了 35K*14 薪的好成績，有不少粉絲留言問我，現在行情這麼差，他是怎麼做到的？這篇拿他這個案例完整回顧一下吧，我管他叫小Y吧。背景溝通說下小Y的基本情況吧

2024-04-28 14:22:17

電腦刷新率的選擇

選120hz的比60hz更護眼.

張博的博客

2024-04-28 14:20:47

Python 潮流週刊#48：Python 3.14 的發佈計劃

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期分享了 12 篇文

豌豆花下貓

2024-04-28 14:20:07

gpu機器沒有開啓ipv6

參考： https://blog.csdn.net/asdfaa/article/details/137884414 檢查系統是否支持 IPv6,查看被禁用了在啓用 IPv6 之前，首先要確保您的系統支持 IPv6。要檢查內核

2024-04-28 14:14:47

pl0詞法分析器

pl/0詞法分析器下面是這個分析器的功能： 1、待分析的簡單語言的詞法（1）關鍵字： begin if then while do end 所有關鍵字都是小寫。（2）運算符和界符： := + – * / < <= <> > >=

2024-04-28 14:14:06

VS2008 LIB的升級改造

今天用VS2019編譯一個在VS2008下Coding的工程的時候，VS給出了一堆鏈接錯誤信息，如下圖所示的一些錯誤： Error 47 error LNK2019: unresolved external symbol "public

2024-04-28 14:14:06

Windows平臺NASM彙編與C混合調用

Windows平臺NASM彙編與C混合調用 tonyblackwhite 之前介紹了Windows平臺下，用微軟宏彙編MASM與C混合調用的方法。MASM是微軟獨有的，Linux沒法用，我喜歡學一個能夠應用於兩種平臺的，所以還是更鐘情於開源

2024-04-28 14:14:06

程序員想通過產品掙錢，首先你產品的目標客戶得不差錢（在線客服系統外傳1）

在線客服系統我利用業餘時間斷斷續續做了好幾年，從一開始的追求完美，到後來的集中精力解決核心問題，從一開始的在每一個用戶身上投入大量時間，到後來學會分辨什麼是有價值客戶，學到很多，成長很多。有許多工程技術上很好，很優秀的產品，甚至一定程度上

2024-04-28 14:14:06

springboot~redis的hash結構爲key設置過期策略

redis配置文件開啓鍵過期 # The "notify-keyspace-events" takes as argument a string that is composed # of zero or multiple charac

2024-04-28 14:13:26

如何開發一個符合人性的機器人通知功能

國內的IT企業逐漸的都有各種IM機器人，這些IM機器人會不斷的吐數據，但是這些吐數據最後都成了像垃圾消息或者周扒皮一樣的催命通知，完全沒有人性。我非常痛恨這種把IM裏不斷被催的方式，這種方式雖然能起作用，但是人在這種環境下工作真的就成了工具

2024-04-28 14:09:16

【轉】[WPF] 複製文本到剪貼板

來自：阿里的通義靈碼以下是幾種常見的複製數據類型到剪切板的方法：複製文本到剪切板 using System.Windows.Forms; // 對於Windows Forms應用 // 或者 using System.Windows

2024-04-28 14:05:45

Python: Regular expressions

@staticmethod def strSplit(textSource: str, patterns: str)->list: """ 分割字符串 :param

®Geovin Du Dream Park™

2024-04-28 14:01:24

24小時熱門文章

最新文章

最新評論文章