效果不太好
稀疏獎勵中的好奇心
curiosity模型中,在原來DQN的基礎上,建立了Network1,用於在𝑎_𝑡和𝑠_𝑡的條件下預測輸出的下一個狀態,與實際在MDP的一個片段上輸出的,下一個狀態之間求差,將差作爲獎勵r的一部分,以鼓勵探索不同的狀態。
引入了Network2,將輸入的兩個狀態進行特徵提取,通過Network2得到的𝑎 ̂_𝑡,以𝑎 _𝑡作爲實際目標進行訓練。從而能夠避免虛假的狀態變化了?另外,Feature Ext和Network2是同一個網絡的不同結構部分麼,爲什麼說訓練Feature Ext,又說Network2?
層次形式強化學習
上層單位提供願景,下層單位執行願景,下層無法執行,則交給下下層。最終執行的內容返回給上層。上層修改願景?
https://arxiv.org/abs/1805.08180
行爲克隆
行爲克隆的一個問題是,不是所有的行爲都是有用並應該進行學習的。
另外的狀態不匹配性?
逆向強化學習
逆向強化學習中,首先是專家在環境中進行交互生成了數據1,與Actor在環境中交互生成了數據2。
將數據1和數據2進行處理,處理過程中使得數據1的獎勵大於數據2,得到獎勵函數R。使用該獎勵函數R,訓練Actor。最終得到一個比較好的Actor。
逆向強化學習與GAN網絡很相似。GAN通過鑑別器判斷輸出的好壞,通過G獲得一個新的圖像輸出?