台部落布谷测试

目錄基本概念 TD(0) n-step TD TD(λ) 總結基本概念先看差分的定義: 差分表示一種差異，小區間上的增量，可以類比於函數中的導數，度量變化的一個指標；直覺上，當系統趨於穩定時，

2020-04-25 01:32:06

梯度，到底是什麼？很容易混淆。站在山底，哪個方向爬坡最快，這個容易想象，但問題是，如果所在的高度是我們優化的目標的話，這個爬坡的方向並不是梯度的方向，這個是我們的目標值(函數值)的變化趨勢。我們先看一下定義：

2020-04-21 14:49:19

Model指的是針對環境的建模，即輸入Action，環境的響應：Reward和State。 Model-Free：環境對輸入的響應就是一個映射，without model，如常見的深度強化學習DQN/A3C/PPO等； Model-Bas

2020-04-19 09:23:39

# 通過 grep --help 可以查看基本命令 # 篩選未匹配結果，使用grep -v，--invert-match 選中不匹配的行，比如： grep -v 'LiLei' hello.py # 篩選hello.py 文件中不包

2020-04-19 09:23:39

如下圖，考查兩個Policy的一致性：生成訓練數據基於的Behavior Policy 目標值即target value基於的Target Policy on-policy：兩者一致比如A2C、A3C、TRPO、IMPA

2020-04-19 09:23:39

d = {23: 3, 13: 45, 2: 89} sorted(d.items(), key=lambda x: x[1], reverse=False) # [(23, 3), (13, 45), (2, 89)] sort

2020-04-14 13:04:01

# 顯示光標 echo -e "\033[?25h" # 隱藏光標 echo -e "\033[?25l"

2020-04-14 13:03:51

# 當有多個git賬號時，可以對不同的項目，單獨配置不同的用戶名和郵箱 # 這樣就可以以 your_name 更新該項目 cd your_repos/ git config user.name your_name git config

2020-04-14 13:03:51

# conda install --use-local package_name # 比如 conda install --use-local anaconda3/cudnn-7.6.0-cuda9.0_0.tar.bz2

2020-04-14 13:03:51

import os import multiprocessing def processing(): process_num = multiprocessing.cpu_count() - 1 # 設置進程數 re

2020-04-14 13:03:51

問題：MAC連接Ubuntu，新建screen，ls或vim中文字符顯示亂碼解決方法: screen和新建的終端都配置utf8 # screen 設置爲utf8 sudo vim /etc/screenrc # 文件追加兩行: def

2020-04-14 13:03:51

# 新建screen screen -S your_screen_name # 進入screen screen -r your_screen_name Ctrl+D # 在當前screen下，輸入Ctrl+D，刪除該screen

2020-04-14 13:03:41