Day 2210:強化學習

強化學習中,探索和利用是兩個很核心的問題。探索即我們去探索環境,通過嘗試不同的動作來得到最佳的策略(帶來最大獎勵的策略)。利用即我們不去嘗試新的動作,而是採取已知的可以帶來很大獎勵的動作。剛開始的時候,強化學習智能體不知道它採取了某個動作後會發生什麼,所以它只能通過試錯去探索,那麼探索就是通過試錯來理解採取的動作到底可不可以帶來好的獎勵。利用是指我們直接採取已知的可以帶來很好獎勵的動作。所以這裏就面臨一個權衡問題,即怎麼通過犧牲一些短期的獎勵來理解動作,從而學習到更好的策略。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章