台部落楊熹

上次提到一個問題，就是如何有效的將交叉熵算法用於很大的數據量的問題上。前面說過，對於騎自行車這種可能只有十個 state，四個 aciton 的小問題上面，交叉熵可以解決，但如果在自動駕駛，或者打遊戲上面，它卻不行，因爲這時我們沒有辦法再存

2018-11-21 18:22:31

今天我們來用深度強化學習算法 deep Q-learning 玩 CartPole 遊戲。強化學習是機器學習的一個重要分支，通過強化學習我們可以創建一個 agent，讓它與環境不斷地互動，不斷試錯，自主地從中學習到知識，進而做出決策。如圖所

2018-10-09 14:52:55

權重初始化的幾個方法我們知道，神經網絡的訓練大體可以分爲下面幾步：初始化 weights 和 biases前向傳播，用 input X, weights W ，biases b, 計算每一層的 Z 和 A，最後一層用 sigmoid, so

2018-10-09 14:52:55

我們以一個迷宮尋寶的遊戲爲例來看什麼是 Q-learning。在這個遊戲中，agent 從一個給定的位置開始，即起始狀態。在不穿越迷宮牆壁的前提下，在每個狀態時，都可以選擇上下左右四個方向走一步，或者原地不動，上下左右這四個動作的每

2018-10-09 14:52:55