原创 強化學習 8: approximate reinforcement learning

上次提到一個問題,就是如何有效的將交叉熵算法用於很大的數據量的問題上。前面說過,對於騎自行車這種可能只有十個 state,四個 aciton 的小問題上面,交叉熵可以解決,但如果在自動駕駛,或者打遊戲上面,它卻不行,因爲這時我們沒有辦法再存

原创 用一個小遊戲入門深度強化學習

今天我們來用深度強化學習算法 deep Q-learning 玩 CartPole 遊戲。強化學習是機器學習的一個重要分支,通過強化學習我們可以創建一個 agent,讓它與環境不斷地互動,不斷試錯,自主地從中學習到知識,進而做出決策。如圖所

原创 權重初始化的幾個方法

權重初始化的幾個方法我們知道,神經網絡的訓練大體可以分爲下面幾步:初始化 weights 和 biases前向傳播,用 input X, weights W ,biases b, 計算每一層的 Z 和 A,最後一層用 sigmoid, so

原创 什麼是 Q-learning

我們以一個迷宮尋寶的遊戲爲例來看什麼是 Q-learning。在這個遊戲中,agent 從一個給定的位置開始,即起始狀態。 在不穿越迷宮牆壁的前提下,在每個狀態時,都可以選擇上下左右四個方向走一步,或者原地不動, 上下左右這四個動作的每