Day 2247:學習

(1)強化學習會試錯探索,它通過探索環境來獲取對環境的理解。
(2)強化學習智能體會從環境中獲得延遲的獎勵。
(3)在強化學習的訓練過程中,時間非常重要。因爲我們得到的是有時間關聯的數據(sequential data),而不是獨立同分布的數據。在機器學習中,如果觀測數據有非常強的關聯,會使得訓練非常不穩定。這也是爲什麼在監督學習中,我們希望數據儘量滿足獨立同分布,這樣就可以消除數據之間的相關性。
(4)智能體的動作會影響它隨後得到的數據,這一點是非常重要的。在訓練智能體的過程中,很多時候我們也是通過正在學習的智能體與環境交互來得到數據的。所以如果在訓練過程中,智能體不能保持穩定,就會使我們採集到的數據非常糟糕。我們通過數據來訓練智能體,如果數據有問題,整個訓練過程就會失敗。所以在強化學習中一個非常重要的問題就是,怎麼讓智能體的動作一直穩定地提升。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章