原创 Bourne強化學習筆記1:用簡單例子說明Off-policy的思想與使用方法

本着ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的學習規律,本人給出直觀理解、數學方法、圖形表達、簡單例子和文字解釋,來介紹off-policy,而on

原创 Bourne強化學習筆記2:徹底搞清楚什麼是Q-learning與Sarsa

爲了理清強化學習中最經典、最基礎的算法——Q-learning,根據ADEPT的學習規律(Analogy / Diagram / Example / Plain / Technical Definition),本文努力用直觀理解、數學方法

原创 Udacity-DRL Discretization Mountain Car

數據離散化處理 1. 離散化環境的state space (state_grid)   2. 將採樣state轉化爲離散化後的state space對應的state     3. 用array的方法( TD用的是dict)初始

原创 Mujoco、Mujoco-py、gym/baseline的環境配置 (可用於UC Berkeley CS294-112 18FA 課程學習)

0. 本人環境 (以下均可根據右側網址進行環境配置https://blog.csdn.net/linyijiong/article/details/84198384) Ubuntu16.04 , Anaconda3 , python 3

原创 爲什麼Q learning,DQN,DPG,DDPG不需要importance sampling?

最近有同學問我爲什麼Qlearning,DQN,DDPG等off policy的算法不需要importance sampling。 我看了一下網上的資料很少,僅有的資料雖然解釋得還算清晰,但是基本上也是隻有懂的人才看得懂,不懂的人還是得消

原创 論文筆記: Large-Scale Study of Curiosity-Driven Learning

一、總結 1、這裏的large-scale是指從不同方面來分析curiosity method的效果: 利用什麼作爲intrinsic reward: dynamic error (prediction error), predictio

原创 Udacity-DRL Temporal_Difference_Solution CliffWalking & Taxi

CliffWalking 1. Collection Deque https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0

原创 Udacity-DRL MC Blackjet Source Code

print 只用於第一個知識點 三個知識點: 1. 用defaultdict來創建一個字典負責Q的存儲,該字典的key爲state,不包括action,action對應value的索引,value的值即爲state、action對應的Q

原创 Udacity-DRL Tile Coding

1. 可以通過concatenate將矩陣變爲列向量 (消除嵌套數組中的嵌套) https://docs.scipy.org/doc/numpy/reference/generated/numpy.concatenate.html   

原创 機器人學領域的頂級期刊總結

本文轉載自:https://www.sohu.com/a/116061841_470013,如有侵權請告知,立即刪除 摘要 此前有不少博客總結了機器人領域的核心期刊 [1][2][3],本文結合身邊大牛投稿經驗和JCR排名奉上最新版的總結

原创 Ubuntu 16 create new user account

1. ubuntu怎麼切換到root用戶,切換到root賬號方法 https://jingyan.baidu.com/article/fd8044fa1e74035031137ae0.html 2. Create a new user a

原创 配置NeurIPS 2019 競賽環境

1. 直接按照官網進行:https://github.com/GOAL-Robots/REALCompetitionStartingKit 2.本臺電腦已經安裝過gym,詳細安裝gym的方法可以參考以下鏈接 https://blog.cs

原创 Batch Normalization

# Batch Normalization 優點: 1. 減少訓練時間,使得更深的網絡可訓練:     * 由於更小的 internal covariate shift,可以使用更大的learning rate;     * 緩解梯度消失

原创 DELL 暗夜精靈無法進入BIOS系統

  1.  【1】開始菜單-“設置”。 【2】單擊“更新和安全”。 【3】單擊右邊列表項中的“恢復”。 【4】單擊左側的“立即重啓”,這時電腦就會立即重啓,所以單擊前請保存好未保存文件。 【5】當電腦重啓之後會進入如下界面,單擊”疑難解答

原创 徹底卸載Ubuntu,包括其引導boot

1. 首先查看自己win系統的啓動類型 按Win+R打開運行,輸入msinfo32,回車查看系統信息。在BIOS模式中如果顯示“傳統”,表示系統啓動方式爲Legacy BIOS;如果爲UEFI,則顯示UEFI。   2. 如果是UEFI