強化學習導論筆記——第一章 介紹

什麼是強化學習

強化學習的目標是如何將狀態situation與動作action關聯起來,以便取得最大的收益reward,即收益最大化。

監督學習supervised Learning指的是從外部“監督者supervisor”提供的樣本samples中提供的樣本中學習,但交互式問題interactive problems通常無法從樣本中窮舉出來。

對於強化學習而言,探索exploration與利用exploitation的平衡是非常重要的。利用指的是根據當前已經取得的信息使得收益最大化,而探索是從未知中尋求未來可能的更優選擇。作者在第二章中重點討論了探索與利用的平衡策略,這些策略在後續的算法中有體現。

幾個強化學習的例子:
下棋、煉油的成本質量控制,剛出生的羚羊掙扎地學會奔跑,垃圾清理機器人在垃圾搜索和充電之間作出選擇,一次日常的早餐製作。

強化學習的幾個要素

強化學習由這幾個要素構成:策略policy,回報reward函數,價值value函數以及可選的環境模型model。

策略指的是在某時刻如何行動,即根據所處的狀態來決定如何行動。策略的優化是強化學習的核心問題。

回報函數定義了強化學習問題的優化目標。長期回報的最大化是學習器的唯一目標。

價值函數與回報函數的不同之處在於,回報函數通常是一個即時收益,而價值函數反映了該狀態從長遠來看的回報如何。沒有回報就沒有價值。

環境模型用於對環境的精確描述,由於強化學習問題並不總能取得這樣的信息,因此是可選的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章