原创 強化學習 Q-learning 實戰GYM下的CliffWalking爬懸崖遊戲

CliffWalking 如下圖所示,S是起點,C是障礙,G是目標 agent從S開始走,目標是找到到G的最短路徑 這裏reward可以建模成-1,最終目標是讓return最大,也就是路徑最短 代碼和解釋 import gy

原创 讀取.npy文件的方法,用python和numpy實現

假設有123.npy存在本地的當前目錄下 import numpy as np arr = np.load("./123.npy") print(arr) # arr的類型爲 <class 'numpy.ndarray'>

原创 Python 配置文件名內容爲001, 002

也可以和多個數字結合 per=0.33 i=1 filename = "objImages%0.2f/%0.3d.jpg" % (per, i) print(filename) 結果 objImages0.33/001.

原创 python創建文件夾,重複的文件夾避免報錯

import os # path path = '/home/User/Documents/aaa' try: os.mkdir(path) except OSError as error: print(err

原创 1496. Path Crossing | switch case | set

class Solution { public: bool isPathCrossing(string path) { set<pair<int, int>> s; s.insert(mak

原创 Linux shell 編程之 grep 用正則表達式抓取匹配的內容

命令 grep [表達式] # 默認是將匹配的行全部輸出 grep -o # 將僅與目標匹配的內容輸出 實戰 文件ExpResult.txt,內容如下,我想把unmatchedKP=[0-100:179, 0-586:277,

原创 LateX beamer 下的報錯unknown CJK family \CJKsfdefault is being ignored

報錯信息 unknown CJK family \CJKsfdefault is being ignored 解決方法 在文檔中添加 \setCJKsansfont{Heiti SC} 注意這裏我是Mac系統,選用的字體是『He

原创 Linux shell 編程之 sort uniq 命令統計單詞詞頻

命令 統計詞頻需要uniq和sort配合使用 uniq 實現去重操作,但僅僅和臨近行的元素比較,那麼如果元素是打散的不在連續行呢?這就需要sort操作 uniq -c -c表示將對應頻次顯示出來 sort 可實現排序,這

原创 Python基於sklearn中的 scikit-image 通過 ssim計算圖片相似度

準備 安裝scikit-image package說明 代碼實現樣例 import cv2 as cv from skimage.metrics import structural_similarity as ssim pa

原创 Vim 在單詞或句子兩側插入括號,引號等等

插件名稱 surround.vim 插件下載和安裝 插件地址 操作 初始文本 "hello world!" 將光標移動到雙引號內,按cs"' 'hello world!' 接着將光標放入其中,按cs'<q> <q>

原创 強化學習 DQN 實戰GYM下的CartPole遊戲

代碼和解釋 安裝依賴 !pip uninstall -y parl # 說明:AIStudio預裝的parl版本太老,容易跟其他庫產生兼容性衝突,建議先卸載 !pip uninstall -y pandas scikit-lea

原创 強化學習 Sarsa 實戰GYM下的CliffWalking爬懸崖遊戲

CliffWalking 如下圖所示,S是起點,C是障礙,G是目標 agent從S開始走,目標是找到到G的最短路徑 這裏reward可以建模成-1,最終目標是讓return最大,也就是路徑最短 代碼和解釋 import gy

原创 基於PCA的降維中,進行特徵值分解和SVD分解相關筆記

降維原理 原矩陣X,變換矩陣W,變換後,進入新空間下的WTXW^TXWTX。 想要進入新空間時,各特徵之間的差異大分得開,也就是新空間下矩陣的方差越大越好,即WTXXTWW^TXX^TWWTXXTW越大越好,所以有: max⁡wt

原创 強化學習中,gym的核心接口environment, 以及 render(), reset(), step() ,ob等

gym的核心接口是environment,核心方法如下 reset():重置環境狀態,回到初始環境,方便下一次訓練 step(action):完成一個時間步,返回4個值 observation:object, 對環境的觀測

原创 強化學習的state和observation

state:全局的狀態,是全局的 observation:agent的觀測,是局部的 如果是單一agent的場景下,state和observation並沒有區別 如果是多agent的場景下,則每個agent的observat