強化學習是一種理解和自動進行目標導向學習和決策的計算方法。它與其他計算方法不同之處在於它強調了代理與環境的直接交互學習,而不依賴於監督或完整的環境模型。在我們看來,強化學習是第一個認真處理在學習與環境的互動時產生的計算問題,以實現長期目標的第一個領域。
強化學習使用馬爾可夫決策過程的正式框架來定義學習代理與其環境之間的交互作用,包括狀態、動作和收益。這個框架用簡單的方法來表示人工智能問題的基本特徵。這些特徵包括因果性、不確定性和不確定性,以及目標的存在性。
價值和價值函數的概念是我們在本書中所考慮的大多數強化學習方法的主要特徵。我們認爲,在政策空間中,價值函數對於有效搜索是非常重要的。價值函數的使用區分了強化學習方法和在整個策略的標量評估指導下搜索策略空間的進化方法。