Effective Diversity in Population-Based Reinforcement Learning


發表時間:2020 (NeurIPS 2020)
文章要點:這篇文章提出了Diversity via Determinants (DvD)算法來提升種羣裏的多樣性。之前的方法通常都考慮的兩兩之間的距離,然後設計一些指標或者加權來增加種羣多樣性,這種方式容易出現cycling,也就是類似石頭剪刀布的循環剋制的關係,造成訓練不上去,或者冗餘的策略。作者提出的DvD是基於行列式的,在優化的時候同時考慮種羣裏的所有策略,這就比兩兩比較距離有更好的效果。
具體的,先定義一個策略表徵向量來表示一個策略

然後用核函數來計算各個策略的相似度

有了這個之後,就可以構建整個種羣相似度的行列式

有了這個之後就用強化的方式更新就好了

這裏就相當於在通常的強化上面再加了一個population diversity的正則項,比如文章用的TD3。
文章還介紹了一種基於進化算法的學習方式,這裏不提了。
總結:挺有意思的文章。
疑問:之前想看看這個文章能不能用到experience replay上面,來sample更加diverse的樣本,看起來好像不是很適用。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章