2019年伯克利大學 CS294-112《深度強化學習》第3講:TensorFlow 和神經網絡簡述(筆記)

在這裏插入圖片描述
今天課的主要內容是TensorFlow的教程和深度神經網絡,由助教Greg Kahn主講。

在開始之前,想繼續講一下上週的一些討論,因爲上次最後沒有講完的所有理論,這是上星期的課程的一點尾巴。在很多場景下,模仿學習是一個學習策略的合適方法,但是在另外一些場景,模仿學習就力不從心了,這也是課程要講強化學習的理由。如果你想超越模仿學習,非常重要的是確切的定義出一個決定是好是壞,而不是僅僅說採取的行動符合在採樣中學習到的,你需要公式化目標函數,在強化學習中稱之爲獎賞函數或者損失函數。
在這裏插入圖片描述
上週用的例子就是這樣的。如果你處在例子中所說的老虎在一起,需要立刻採取動作,根本不會想策略是什麼或者它代表什麼意思,只是需要知道什麼是好決定,什麼是壞決策。真正關心的是將要發生什麼或者不會發生什麼,最關心的是會不會被老虎吃掉。動作的目標應該就是最小化被老虎吃掉的概率。概括來講,在決策問題,你可以寫一個損失函數或者獎賞函數,它可以告訴某個狀態或者動作有多好,你在所有的時間上最大化獎賞函數或者最小化損失函數

待續…
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章