Deepmind“好奇心”強化學習新突破!改變獎勵機制,讓智能體不再“兜圈子”

來源:Google AI

作者:Nikolay Savinov, Timothy Lillicrap,

編譯:大明

【新智元導讀】Google、Deepmind和蘇黎世聯邦理工學院的研究人員提出“好奇心學習”新方法,改變了智能體“好奇心”的生成方式和獎勵機制,獎勵機制不再基於智能體的“意外”,而是其記憶和所在情景。研究人員稱,新方法可以有效降低智能體“原地兜圈子”、“拖延”等不良行爲,有效提升模型性能。

強化學習是機器學習中最活躍的研究領域之一,在該領域的研究環境下,人工智能體(agent)做到正確的事情時會獲得積極的獎勵,否則獲得負面的獎勵。

這種“胡蘿蔔加大棒”的方法簡單而通用,DeepMind教授利用DQN算法來玩Atari遊戲和AlphaGoZero下圍棋,都是利用強化學習模型。OpenAI團隊利用OpenAI-Five算法來打Dota,Google如何教機器人手臂來握住新目標,也是利用強化學習實現的。不過,儘管強化學習取得了如此大的成功,但想使其成爲一種有效的技術,仍然存在許多挑戰。

標準的強化學習算法在對智能體反饋信息很少的環境中表現不佳。至關重要的是,這類環境在現實世界中是很常見的。舉個例子,如何在一個大型的迷宮式超市中學習如何找到自己喜歡的奶酪。你找了又找,但找不到賣奶酪的貨架。

如果做完了某一步動作,既沒有“胡蘿蔔”,也沒有“大棒”,那智能體便無法判斷是否正朝着正確的方向前進。在沒有獎勵的情況下,怎樣才能避免原地兜圈子?也只有好奇心了,好奇心會激勵目標進入一個似乎不熟悉的區域,到那裏去找奶酪。

在Google Brain團隊、DeepMind和蘇黎世聯邦理工學院的合作研究中,提出了一種新的基於情景記憶的模型,它可以提供與好奇心類似的獎勵,可以用於探索周圍環境。

研究團隊希望,智能體不僅要能探索環境,而且還要解決原始任務,因此將模型提供的獎勵加入原始的反饋信息稀疏的任務的獎勵中。合併後的獎勵不再稀疏,使用標準強化學習算法就可以從中學習。因此,該團隊提出的好奇心方法擴展了可用強化學習解決的任務集。研究論文題爲《Episodic Curiosity through Reachability》

基於情景的好奇心模型:觀察結果被添加到智能體的記憶中,獎勵基於智能體當前的觀察結果與記憶中最相似的結果的差異來計算的。智能體會因爲看到記憶中尚不存在的觀察結果而獲得更多獎勵。

這一方法的關鍵是,將智能體對環境的觀察結果存儲在情景記憶中,同時對智能體觀察到的“記憶中尚不存在”的結果也進行獎勵。“記憶中不存在”是這一方法中新的定義,智能體去尋求這種觀察結果,意味着去尋求不熟悉的東西。尋求陌生事物的驅動力會讓智能體到達新的位置,防止其在原地兜圈子,並最終幫助其找到目標。下文還將談到,這種方法不會像其他一些方法那樣,讓智能體出現一些不希望出現的行爲,比如類似人類的“拖延”行爲。

過去的好奇心學習機制:基於“意外”的好奇心

儘管在過去有許多嘗試來形成好奇心,但本文關注的是一種自然且非常流行的方法:基於“意外”的好奇心機制。最近一篇題爲“Curiosity-driven Exploration bySelf-supervised Prediction”的論文中探討了這個問題。此方法一般稱爲ICM方法。爲了說明意外是如何引發好奇心的,這裏再次以超市中尋找奶酪的比喻爲例。

想象一下當你在逛市場時,其實會嘗試着預測未來(“現在我在賣肉攤位處,所以我認爲拐角處應該是賣魚的,超市連鎖店中這兩個部分一般是相鄰的”)。如果你的預測錯了,你會感到意外(“啊,原來是賣菜的。我沒想到!”)因而得到一個回報。這使你更有動力將來更加關注拐角處,探索新的地方,看看自己對它們的預測是否符合現實(也是希望能夠找到奶酪)。

與此類似,ICM方法也建立了關於世界動態的預測模型,並在模型未能做出良好預測時對智能體給予獎勵,這種獎勵標誌着“意外”或“新東西”。注意,探索沒去過的地方,並不是ICM好奇心機制的直接組成部分。

對於ICM方法而言,這只是獲得更多“意外”的一種方式,目的是讓獲得的總體獎勵最大化。事實證明,在某些環境中可能存在其他方式造成“自我意外”,從而導致無法預料的結果。

基於“意外”好奇心的智能體會一直卡在電視前,不去執行任務

基於“意外好奇心“的智能體易產生“拖延行爲”

在 《Large-Scale Study of Curiosity-Driven Learning》一文中,ICM方法的作者和OpenAI的研究人員表明,基於“意外最大化”的強化學習方法可能存在潛在的風險:智能體可以學會放縱和拖延的行爲,不去做任何有用的事情來完成當前任務。

爲了瞭解其中的原因,請看一個常見的思想實驗,實驗名爲“嘈雜的電視問題”,在實驗中,智能體被置於一個迷宮中,任務是尋找一個非常有價值的項目(與本文之前的超市例子中的“奶酪”類似)。

測試環境中還放了一臺電視,智能體有電視的遙控器。電視頻道數量有限(每個頻道放映不同的節目),每次按鍵都會切換到隨機頻道。智能體在這樣的環境中會如何表現?

對基於意外的好奇心的方法而言,改變頻道會產生巨大的回報,因爲每次頻道變化都是不可預測和意外的。重要的是,即使在所有可用頻道的節目都循環出現一次之後,由於頻道放映的內容是隨機的,所以每一個新變化仍然屬於意外,因爲智能體一直預測改變頻道後會放什麼節目,這個預測很可能會出錯,導致意外的產生。

即使智能體已經看過每個頻道的每個節目,這種隨機變化仍然是不可預測的。因此,不斷收穫意外的好奇心智能體,最終將永遠留在電視機前,不會去尋找那個非常有價值的物品,這類似於一種“拖延”行爲。那麼,如何定義“好奇心”才能避免產生這種拖延行爲呢?

基於“情境”的好奇心模型

在《Episodic Curiositythrough Reachability》一文中,我們探索了一種基於記憶的“情境好奇心”模型,結果證明,這種模型不太容易產生“自我放縱”的即時滿足感。爲什麼呢?

這裏仍以上文的實驗爲例,智能體在不斷變換電視頻道一段時間後,所有的節目最終都會出現在記憶中。因此,電視將不再具有吸引力:即使屏幕上出現的節目順序是隨機且不可預測的,但所有這些節目已經在記憶中了。

這是本方法與前文的“基於意外”的方法的主要區別:我們的方法甚至沒有去預測未來。與此相反,智能體會檢查過去的信息,瞭解自己是否已經看到過與當前的觀察結果。因此,我們的智能體不會被嘈雜的電視所提供的“即時滿足感”所吸引。它必須去電視之外世界進行探索,才能獲得更多獎勵。

如何判斷智能體是否看到與現有記憶中相同的東西?檢查二者是否完全匹配可能是毫無意義的:因爲在現實環境中,很少出現完全相同的場景。比如,即使智能體返回了一間完全相同的房間內,其觀察角度也會與之前的記憶場景不同。

我們不會檢查智能體記憶中的是否存在精確匹配,而是用訓練後的深度神經網絡來衡量兩種體驗的相似度。爲了訓練該網絡,我們會猜測前後兩個觀察結果在時間上是否相距很近。如果二者在時間上很接近,很可能就應該被視爲智能體同一段體驗中的不同部分。

是新是舊可由“可達性”圖決定。在實際應用中,此圖無法獲取,我們通過訓練神經網絡估計器,在觀察結果之間估計一系列步驟。

實驗結果與未來展望

爲了比較不同方法的表現,我們在兩個視覺元素豐富的3D環境中進行了測試:分別爲ViZDoom和DMLab。在這些環境中,智能體的任務是處理各種問題,比如在迷宮中搜索目標,或者收集“好目標”,同時避開“壞目標”。

DMLab環境恰好能爲智能體提供很炫酷的工具。此前的研究中,關於DMLab的標準設置就是爲智能體配備適用所有任務的小工具,如果代理不需要特定任務的小工具,那麼也可以不用。

有趣的是,在類似於上文的嘈雜的電視實驗中,基於意外的ICM方法實際上使用了這個小工具,即使它對於當前任務並無用處!智能體的任務是在迷宮中搜尋高回報的目標,但它卻更喜歡花時間對牆壁進行標記,因爲這會產生很多“意外”獎勵。

從理論上講,預測標記的結果是可能的,但實際上太難實現了,因爲智能體顯然不具備預測這些結果所需的更深入的物理知識。

基於“意外”的ICM方法,智能體一直在標記牆壁,而不是探索迷宮

而我們的方法則在相同的條件下學習合理的探索行爲。智能體沒有試圖預測其行爲的結果,而是尋求從已在情景記憶中存在的那些“更難”實現目標的觀察結果。換句話說,智能體會根據記憶,去尋求更難實現的目標,而不僅僅進行標記操作。

在我們的“情景記憶”方法中,智能體會進行合理的探索

有趣的是,我們的方法所實施的獎勵機制,會懲罰在原地兜圈子的智能體。這是因爲在完成一次內容循環後,智能體之後的觀察結果都已存在於記憶中了,因此不會得到任何獎勵:

對我們的方法獎勵機制的可視化:紅色表示負面獎勵,綠色表示正面獎勵。從左到右分別爲:使用獎勵的映射,使用當前記憶位置的映射,第一人稱視圖

我們希望我們的研究有助於引領對新的探索方法的討論。有關我們方法的深入分析,請查看我們的研究論文的預印本。

(論文鏈接:https://arxiv.org/abs/1810.02274)

參考文獻:

https://ai.googleblog.com/2018/10/curiosity-and-procrastination-in.html

"Count-Based Exploration with Neural DensityModels", Georg Ostrovski, Marc G. Bellemare, Aaron van den Oord,Remi Munos

"#Exploration: A Study of Count-BasedExploration for Deep Reinforcement Learning", Haoran Tang, ReinHouthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, John Schulman, Filip DeTurck, Pieter Abbeel

"Unsupervised Learning of Goal Spaces forIntrinsically Motivated Goal Exploration", Alexandre Péré,Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer

"VIME: Variational Information MaximizingExploration", Rein Houthooft, Xi Chen, Yan Duan, JohnSchulman, Filip De Turck, Pieter Abbeel

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章