台部落Zoeen

採用兩個深度神經網絡（DNN）來學習狀態到動作的映射，和神經網絡權重的更新，以解決Q表狀態-動作值決策時空間增長而計算存儲高複雜度的問題。此外，還包括double DQN（解決過擬合），Prioritized Experienc

2020-06-25 08:43:17

這個網上已有成熟的教程，按步驟進行操作即可。附上參考鏈接： [1] https://blog.csdn.net/qq_34769201/article/details/95667042?utm_medium=distribu

2020-06-25 08:43:17

Policy gradient 最大的一個優勢是: 輸出的這個 action 可以是一個連續的值, 之前我們說到的 value-based 方法輸出的都是不連續的值, 然後再選擇值最大的 action. 而 policy gra

2020-06-25 08:43:17

在線學習思路解決bandits問題，包括如何構造損失函數，通過探索，以更好估計損失函數的結構（分佈），和通過利用，最小化遺憾傾向於選擇能最小化損失函數的決策，探索和利用之間的折中。在線算法競爭比： https://www.c

2020-06-25 08:43:17

本文是藉助MargalhoTutorial的參數配置在the One Simulator基礎上的嘗試，MargalhoTutorial使用的參數配置在網站下有詳細給出。 the One Simulator：http://www

2020-06-25 08:43:17

一、在vs code下配置python： https://www.jianshu.com/p/cbf500c22154 看了一下，安裝後python的版本爲3.7.1 二、（1）tensorflow在Anaconda Prompt

2020-06-25 08:43:17

800

馬爾科夫還沒搞明白，又來了李雅普諾夫驚奇地發現，馬爾科夫和李雅普諾夫居然是師兄弟關係，都是切比雪夫的學生，優秀的人總是如此的相似：讓人頭暈 : (，我決定也要改一個名字，叫石原美夫 : ) https://blog.csdn.

2020-06-25 08:43:17

最近在看多邊緣雲計算卸載方面的研究，想到邊緣雲的地理部署位置的方式和任意兩邊緣雲的最短傳輸路徑。一種簡單的嘗試是邊緣雲按等網格線部署。舉個例子，假設有25個邊緣雲，等網格部署情況下邊緣雲的排列方式類似於一個5*5的二維矩陣，其中

2020-06-25 08:43:17

《Tensorflow+Keras 深度學習人工智能實踐應用》清華大學出版社,林大貴著。：) 看的林大貴的第二本書，對新手來說很友好。 1.書中5.3節建立工作目錄時，發現很多命令都用不了，提示：由於/bin 不在PATH

2020-06-25 08:43:17

Sarsa也是基於Q表進行增強學習，與系列（1）、（2）中的區別在於狀態動作值更新的方法。Sarsa中通過創建與Q表同等大小的eligibility_trace矩陣來進行Q表值的更新。zoe這裏自己理解一下eligibility

2020-05-27 10:17:40

這裏通過zoe走迷宮例子再次學習Q-learning。與強化學習系列(1)中思想一致，其區別主要是通過兩個類，迷宮環境Maze和zoe大腦QLearningTable來規範化程序，同時在運行函數步驟來清晰化Q學習的過程。 Pa

2020-05-23 20:53:02