什麼是強化學習
強化學習的目標是如何將狀態situation與動作action關聯起來,以便取得最大的收益reward,即收益最大化。
監督學習supervised Learning指的是從外部“監督者supervisor”提供的樣本samples中提供的樣本中學習,但交互式問題interactive problems通常無法從樣本中窮舉出來。
對於強化學習而言,探索exploration與利用exploitation的平衡是非常重要的。利用指的是根據當前已經取得的信息使得收益最大化,而探索是從未知中尋求未來可能的更優選擇。作者在第二章中重點討論了探索與利用的平衡策略,這些策略在後續的算法中有體現。
幾個強化學習的例子:
下棋、煉油的成本質量控制,剛出生的羚羊掙扎地學會奔跑,垃圾清理機器人在垃圾搜索和充電之間作出選擇,一次日常的早餐製作。
強化學習的幾個要素
強化學習由這幾個要素構成:策略policy,回報reward函數,價值value函數以及可選的環境模型model。
策略指的是在某時刻如何行動,即根據所處的狀態來決定如何行動。策略的優化是強化學習的核心問題。
回報函數定義了強化學習問題的優化目標。長期回報的最大化是學習器的唯一目標。
價值函數與回報函數的不同之處在於,回報函數通常是一個即時收益,而價值函數反映了該狀態從長遠來看的回報如何。沒有回報就沒有價值。
環境模型用於對環境的精確描述,由於強化學習問題並不總能取得這樣的信息,因此是可選的。