Day 2240:學習

強化學習和監督學習的區別如下。

(1)強化學習處理的大多數是序列數據,其很難像監督學習的樣本一樣滿足獨立同分布。

(2)學習器並沒有告訴我們每一步正確的動作應該是什麼,學習器需要自己去發現哪些動作可以帶來最多的獎勵,只能通過不停地嘗試來發現最有利的動作。

(3)智能體獲得自己能力的過程,其實是不斷地試錯探索(trial-and-error exploration)的過程。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章