2019年伯克利大學 CS294-112《深度強化學習》第4講:強化學習簡介(筆記)

在這裏插入圖片描述
今天的課算是關於如何優化獎勵函數的強化學習算法的第一課。在接下來的幾週中會講到更多關於某個算法的細節,而今天就做一些數學推導。目的是對強化學習中一些一般的定義和不同種類的算法,有一個基本的認識。對典型的強化學習算法的原理有一個高層次的認識,所以今天的東西可能會有一點點高階。如果看起來有點吃力,不用擔心後面幾週會講到更多細節,而且會講到這些方法的推導過程和實現過程中的難點。
在這裏插入圖片描述
今天會先講一下馬爾科夫決策過程的定義,這是很多強化學習算法中最核心、最基礎的數學概念。還會講到強化學習問題的定義,強化學習問題本質上來說是一個優化問題,但是需要定義你的優化目標是什麼?自變量是什麼?然後會介紹典型的強化學習算法的內部結構,實際上後面我們講到的所有強化學習算法,他們都能分解成三個部分。會將一下那三個部分分別是什麼,然後會給一些例子說明對於不同的方法這些部分如何變化。然後會大概介紹一下這門課要講到的不同種類的算法。所以今天課程的目的就是理解定義和符號,從而理解強化學習算法的根本目標,也就是強化學習算法到底在優化什麼。對於今天講到的這些算法有一個總結性的認識。當然在後面的課程中會講到更多關於這些算法的細節,那麼我們從定義開始。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章