李宏毅的強化學習視頻用於梳理翻閱(4)獎勵、模仿

效果不太好

稀疏獎勵中的好奇心

curiosity模型中,在原來DQN的基礎上,建立了Network1,用於在𝑎_𝑡和𝑠_𝑡的條件下預測輸出的下一個狀態,與實際在MDP的一個片段上輸出的,下一個狀態之間求差,將差作爲獎勵r的一部分,以鼓勵探索不同的狀態。

引入了Network2,將輸入的兩個狀態進行特徵提取,通過Network2得到的𝑎 ̂_𝑡,以𝑎 _𝑡作爲實際目標進行訓練。從而能夠避免虛假的狀態變化了?另外,Feature Ext和Network2是同一個網絡的不同結構部分麼,爲什麼說訓練Feature Ext,又說Network2?

 

 

 

 

層次形式強化學習

上層單位提供願景,下層單位執行願景,下層無法執行,則交給下下層。最終執行的內容返回給上層。上層修改願景?

 https://arxiv.org/abs/1805.08180

 

行爲克隆

行爲克隆的一個問題是,不是所有的行爲都是有用並應該進行學習的。

另外的狀態不匹配性?

 

逆向強化學習

逆向強化學習中,首先是專家在環境中進行交互生成了數據1,與Actor在環境中交互生成了數據2。

將數據1和數據2進行處理,處理過程中使得數據1的獎勵大於數據2,得到獎勵函數R。使用該獎勵函數R,訓練Actor。最終得到一個比較好的Actor。

 

 逆向強化學習與GAN網絡很相似。GAN通過鑑別器判斷輸出的好壞,通過G獲得一個新的圖像輸出?

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章