原创 強化學習系列(5) - DQN及其改進

採用兩個深度神經網絡(DNN)來學習狀態到動作的映射,和神經網絡權重的更新,以解決Q表狀態-動作值決策時空間增長而計算存儲高複雜度的問題。此外,還包括double DQN(解決過擬合),Prioritized Experienc

原创 強化學習系列(4)-gym環境安裝

這個網上已有成熟的教程,按步驟進行操作即可。 附上參考鏈接: [1] https://blog.csdn.net/qq_34769201/article/details/95667042?utm_medium=distribu

原创 強化學習系列(6) - Policy-Gradient-Softmax

Policy gradient 最大的一個優勢是: 輸出的這個 action 可以是一個連續的值, 之前我們說到的 value-based 方法輸出的都是不連續的值, 然後再選擇值最大的 action. 而 policy gra

原创 competitive ratio and online learning

在線學習思路解決bandits問題,包括如何構造損失函數,通過探索,以更好估計損失函數的結構(分佈),和通過利用,最小化遺憾傾向於選擇能最小化損失函數的決策,探索和利用之間的折中。 在線算法競爭比: https://www.c

原创 the One Simulator+MargalhoTutorial

本文是藉助MargalhoTutorial的參數配置在the One Simulator基礎上的嘗試,MargalhoTutorial使用的參數配置在網站下有詳細給出。 the One Simulator:http://www

原创 VScode+Python+Tensorflow+Keras

一、在vs code下配置python: https://www.jianshu.com/p/cbf500c22154 看了一下,安裝後python的版本爲3.7.1 二、(1)tensorflow在Anaconda Prompt

原创 馬爾科夫和李雅普諾夫

馬爾科夫還沒搞明白,又來了李雅普諾夫 驚奇地發現,馬爾科夫和李雅普諾夫居然是師兄弟關係,都是切比雪夫的學生,優秀的人總是如此的相似:讓人頭暈 : (,我決定也要改一個名字,叫石原美夫 : ) https://blog.csdn.

原创 shortestPathBinaryMatrix

最近在看多邊緣雲計算卸載方面的研究,想到邊緣雲的地理部署位置的方式和任意兩邊緣雲的最短傳輸路徑。一種簡單的嘗試是邊緣雲按等網格線部署。舉個例子,假設有25個邊緣雲,等網格部署情況下邊緣雲的排列方式類似於一個5*5的二維矩陣,其中

原创 《TensorFlow+Keras深度學習人工智能實踐應用》學習錯誤記錄

《Tensorflow+Keras 深度學習人工智能實踐應用》清華大學出版社,林大貴著。 :) 看的林大貴的第二本書,對新手來說很友好。 1.書中5.3節建立工作目錄時,發現很多命令都用不了,提示: 由於/bin 不在PATH

原创 強化學習系列(3) -Sarsa

Sarsa也是基於Q表進行增強學習,與系列(1)、(2)中的區別在於狀態動作值更新的方法。Sarsa中通過創建與Q表同等大小的eligibility_trace矩陣來進行Q表值的更新。zoe這裏自己理解一下eligibility

原创 強化學習系列(2) - Q-learning走迷宮例子

這裏通過zoe走迷宮例子再次學習Q-learning。與強化學習系列(1)中思想一致,其區別主要是通過兩個類,迷宮環境Maze和zoe大腦QLearningTable來規範化程序,同時在運行函數步驟來清晰化Q學習的過程。 Pa