Deep Exploration via Bootstrapped DQN

原創

2022-06-07 13:43

發表時間：2016（NIPS 2016）
文章要點：這篇文章提出了Bootstrapped DQN算法來做深度探索。作者認爲，當前的探索策略比如ϵ-greedy，並沒有進行深度探索（temporally-extended (or deep) exploration）。Deep exploration指的是一個探索策略進行多步的探索，而不是像ϵ-greedy那種每步都是一個隨機探索，沒有連續性（Deep exploration means exploration which is directed over multiple time steps; it can also be called planning to learn or far-sighted exploration）。作者提出，同時訓練多個Q網絡，可以做到deep exploration。
具體做法就是訓練網絡的時候，不止一套Q value，而是有K套Q value，然後每個episode都用其中一個Q head來選擇動作，相當於用同一個策略來探索這一整局，這樣就做到了deep exploration。然後訓練的時候，就有放回抽樣各個Q head的樣本分別訓練。
總結：較老的一篇文章了，相當於是ensemble的方式，可能當時比較新穎吧。
疑問：dithering指的啥？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

StreamJsonRpc.ConnectionLostException 在請求完成之前, 與遠程方的 JSON-RPC 連接已丟失

今天電腦重啓之後，發現 visual studio 2022 的智能提示與報錯經常性不好用，不光不能在正常時候提示代碼錯誤信息，甚至在編譯過後也不提示錯誤。反覆重啓，剛開始正常，隔一會兒就會提示什麼什麼功能不可用，點開打開詳情，提示：Str

波多爾斯基

2024-04-23 14:32:26

10分鐘本地運行llama3及初體驗

Meta最新推出的開源大模型llama-3,被譽爲目前最強的開源大模型，能力接近於GPT 4.5. 因此在本地搭建一下搶鮮體驗系統環境 CPU: AMD Ryzen 5 3600X 6-Core Processor 4.10 GHz RA

摩羯座先生

2024-04-23 14:32:16

【筆記】動手學深度學習-前言

1、學習深度學習，首先第一點要親自動手。 2、相關anacoda的環境的安裝方法，用來隔絕相關的依賴關係，防止安裝包衝突。 3、機器學習程序不同於一般程序，能夠隨着數據的增加，通過調節內部的參數，展現出一定的智能的想象。 4、機器學習中的核

2024-04-23 14:29:45

手寫協議報文 c語言手法

鑑於絕大部分文件、網絡通信協議、非網絡通信協議都有類似的結構{類型，長度，校驗，不定長數據，結束標誌}，再高級點的會包含多個單層TLV，甚至嵌套TLV，狀態機流轉標誌等等。所以編程語言上也需要採用一定的手法。建立結構結構體和聯合體例如

藍天上的雲℡

2024-04-23 14:22:15

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

作者：青石路來源：https://www.cnblogs.com/youzhibing/p/18019399 MyBatis 替換成 MyBatis-Plus 背景介紹一個老項目，數據庫用的是 MySQL 5.7.36 ， ORM 框

2024-04-23 14:22:15

goweb性能分析 - 遠程分析

gin集成pporf main.go添加 import _ "net/http/pprof" gin路由添加 // r is *gin.Engine pprof.Register(r) 本地電腦鏈接到遠程web服務進行分析然後本地

藍天上的雲℡

2024-04-23 14:22:15

RT-Thread 4.x STM32F107

官方文檔很坑，新舊不分開，文檔缺失/分類很亂有些文檔在IDE RT-STUDIO文檔裏，有些在RTThread標準版文檔裏，逆天坑：不支持STM32CUBEMX的Advanced工程，記得重新保存生成basic工程才能用。不能使用.c/

藍天上的雲℡

2024-04-23 14:22:15

Azure REST API (0) 概述 Windows Azure Platform 系列文章目錄

　　《Windows Azure Platform 系列文章目錄》　　1.概述　　1.我們在使用Azure 雲服務的時候，可以通過Azure Portal: https://portal.azure.com,輸入郵箱地址和密碼，然後

Lei Zhang的博客

2024-04-23 14:21:25

盟軍敢死隊2 108關

可以算是最耐玩的遊戲了. 108關後面自定義的關都非常難. https://bbs.3dmgame.com/thread-6354239-1-1.html 更多的360關: https://www.52pojie.cn/thread-117

張博的博客

2024-04-23 14:20:44

淺談sparse vec檢索工程化實現

前面我們通過兩篇文章: BGE M3-Embedding 模型介紹和 Sparse稀疏檢索介紹與實踐介紹了sparse 稀疏檢索，今天我們來看看如何建立一個工程化的系統來實現sparse vec的檢索。之前提過milvus最新的V

2024-04-23 14:20:04

甲骨文(Oracle)宣佈將以74億美元收購Sun公司

IBM與Sun公司之間的收購風波還未塵埃落定，半路卻殺出了甲骨文公司這個“程咬金”。Oracle甲骨文公司和Sun微系統公司今天共同宣佈，雙方已經達成協議，甲骨文將以每股9.5美元的現金收購Sun公司，交易總價值74億美元。　　就在幾周

2024-04-23 14:18:34

NSS：IE8是最安全的瀏覽器

NSS實驗室近日的一份研究報告指出，IE8在惡意軟件防護方面較其它瀏覽器表現突出，NSS表示，當前有超過50%的惡意軟件都是通過網絡下載傳播的，該實驗室首次對五種主流瀏覽器的惡意網站的攔截性能進行了測試，IE8（RC版本）以69%的攔截率居

2024-04-23 14:18:34

Brian Sun：回覆“爲啥就那麼痛恨IE？”

這位仁兄很有自知之明:) 但是我並不打算罵你，我打算跟你講講道理。首先，在講道理之前，我先要說明一個事實，Mozilla的前身是Netscape Navigator，人類第一個商業瀏覽器，即做了非常成功的產品又做了非常成功的創業企業

2024-04-23 14:18:34

支持非IE瀏覽器真的那麼難嗎？

來源：http://www.kenengba.com/post/774.html 微軟最近推出了IE8正式版。當你知道上網需要的是瀏覽器，而不是那個"e"時，你一定知道，不管IE推出什麼版本，只要它的核心不變，它一直是個“老掉牙”的瀏覽器。

2024-04-23 14:18:34

爲啥就那麼痛恨IE？

　　看了《評論:支持非IE瀏覽器真的那麼難嗎？》一文，我覺得作者的分析太深刻了——一個典型的技術型人才。其實從技術上說，要支持IE根本不是什麼困難的事情，這個大家都很清楚。但是不遵循技術標準，並不代表國人素質低，並不代表國人不思改變、不思進

2024-04-23 14:18:34

24小時熱門文章

最新文章

最新評論文章