原创 強化學習 時序差分學習(Temporal-Difference Learning)

目錄 基本概念 TD(0) n-step TD TD(λ) 總結 基本概念      先看差分的定義:        差分表示一種差異,小區間上的增量,可以類比於函數中的導數,度量變化的一個指標;        直覺上,當系統趨於穩定時,

原创 機器學習 梯度到底是什麼?

    梯度,到底是什麼?很容易混淆。     站在山底,哪個方向爬坡最快,這個容易想象,但問題是,如果所在的高度是我們優化的目標的話,這個爬坡的方向並不是梯度的方向,這個是我們的目標值(函數值)的變化趨勢。     我們先看一下定義: 

原创 強化學習 Model-Based 和 Model-Free

Model指的是針對環境的建模,即輸入Action,環境的響應:Reward和State。 Model-Free:環境對輸入的響應就是一個映射,without model,如常見的深度強化學習DQN/A3C/PPO等; Model-Bas

原创 linux grep 選中不匹配的行

# 通過 grep --help 可以查看基本命令 # 篩選未匹配結果,使用grep -v,--invert-match 選中不匹配的行,比如: grep -v 'LiLei' hello.py # 篩選hello.py 文件中不包

原创 深度強化學習 on-policy 和 off-policy

如下圖,考查兩個Policy的一致性: 生成訓練數據基於的Behavior Policy 目標值即target value基於的Target Policy on-policy:兩者一致        比如A2C、A3C、TRPO、IMPA

原创 Python dict字典排序

d = {23: 3, 13: 45, 2: 89} sorted(d.items(), key=lambda x: x[1], reverse=False) # [(23, 3), (13, 45), (2, 89)] sort

原创 linux顯示光標

# 顯示光標 echo -e "\033[?25h" # 隱藏光標 echo -e "\033[?25l"  

原创 github config 配置用戶名和郵箱

# 當有多個git賬號時,可以對不同的項目,單獨配置不同的用戶名和郵箱 # 這樣就可以以 your_name 更新該項目 cd your_repos/ git config user.name your_name git config

原创 conda安裝本地下載的包

# conda install --use-local package_name # 比如 conda install --use-local anaconda3/cudnn-7.6.0-cuda9.0_0.tar.bz2  

原创 Python multiprocessing 多進程示例

import os import multiprocessing def processing(): process_num = multiprocessing.cpu_count() - 1 # 設置進程數 re

原创 Ubuntu Screen 中文顯示亂碼問題

問題:MAC連接Ubuntu,新建screen,ls或vim中文字符顯示亂碼 解決方法: screen和新建的終端都配置utf8 # screen 設置爲utf8 sudo vim /etc/screenrc # 文件追加兩行: def

原创 linux下screen的新建、刪除、退出等常見指令

# 新建screen screen -S your_screen_name # 進入screen screen -r your_screen_name Ctrl+D # 在當前screen下,輸入Ctrl+D,刪除該screen