進化學習框架:改進自動羣機器人設計

進化學習框架:改進自動羣機器人設計

今天閱讀了《Evolutionary-learning framework: improving automatic swarm robotics design》,有些許啓發,將主要內容整理如下,供大家交流,文章的DOI號爲https://doi.org/10.1108/IJIUS-06-2018-0016,可將DOI號輸入到文章下載器進行文章下載。

摘要

目的:本文的目的是回顧自動羣體設計研究領域的進展現狀,並討論推進羣體機器人研究的可能解決方案。提出了一種基於表觀遺傳函數的羣體進化學習框架,並討論了該框架的優點和對未來研究方向的建議。討論表明,需要解決的主要挑戰是動態環境的存在,而動態環境的存在主要是由agent對agent和agent對環境交互引起的。解決這一問題的一個可能辦法是將學習能力融入到羣體中,以應對動態環境。

進化型羣機器人現狀

基於行爲的模型可能只解決特定的問題。隨着問題複雜性的增加,基於行爲的設計需要更多的努力來定義一個適應不可預測環境的數學模型。因此,需要一種更有效的方法來實現羣體的集體行爲。使用自動設計方法可以很容易地解決這個問題,從而實現集體行爲,而無需顯式地定義問題的模型
EAswarm機器人技術相結合產生的解決方案稱爲進化羣,由於隨機變異和環境變化,往往會產生不可預測的結果。因此,爲了使進化羣體在動態環境中運行,必須收集來自環境的刺激信息,並在以後作爲知識使用,以便下一代EA制定更好的行動或行爲:基於外部刺激改進行動通常被定義爲一種學習機制(Mitchell,1997年)。然而,由於EAs主要受到達爾文進化論的啓發(達爾文,1872年),沒有直接的機制讓一代個體感知到外部知識被下一代個體(有時被稱爲Lamarckian paradigm)所繼承。換言之,遺傳性學習在EA中不起任何重要作用。因此,需要一種將學習框架融入進化羣的方法,以拓寬如何在動態環境中提高羣能力的視角。
圖1 進化羣機器人系統
在機器人學中,進化計算(Goldberg,1989)可用於將控制策略的特徵編碼爲人工染色體(Holland,1992)。每個染色體代表每個策略的特定特徵,並使用適應度函數評估其適應度值(性能)。高適應值染色體(一組策略)可以通過重組、隨機突變和選擇等遺傳算子進行繁殖。具有較高適應度等級(新策略)的後代將取代上一代中具有最低適應度等級策略的後代。這種發展是重複的,直到新一代的適應值達到指定的標準。這種在機器人學中生成控制策略的方法被定義爲進化機器人學(ER),如圖1所示(Nolfi等人,2016年)。

學習型羣機器人現狀

基於MAS的RL允許個體通過與環境和其他因素反覆試驗來學習行爲(Kaelbling等人,1996;Sen和Weiss,1999;Sutton和Barto,1998),見圖2。在每次交互中,在環境的相應狀態下的每個智能體的行爲都會根據其性能得到獎勵。利用獎勵之和,將行爲和狀態配對成一組行爲狀態,作爲羣體在某一環境狀態下的行爲準則。
圖2 多智能體強化學習
羣機器人中的RL利用了多智能體設置的優點。首先,多智能體設置允許以並行方式計算學習過程。第二,一個智能體從與環境的反覆交互中感知到的知識可以與其他具有相似任務的智能體共享教學和模仿是小組內共享媒介的例子。最後,當一個或多個智能體無法完成任務時,也可以應用冗餘當失敗發生時,剩餘的代理可以接管並完成任務

進化學習框架

當前的羣體機器人設計方法分類如下圖3.
圖3 羣體機器人設計方法分類
儘管進化計算和RL在羣體自動設計中具有許多優點,但是利用自動設計來實現羣體的集體行爲仍然存在一些挑戰。包括欺騙性(陷入局部最優)探索與利用困境非平穩行爲維度災難等。因此很多工作關注於如何改善這些問題。主要從保持多樣性平衡探索利用實現納什均衡提升適應性。(具體就不展開了,有興趣的可以去原文看)。基於以上考量,作者提出了進化學習框架,具體如圖4.
圖4 表觀遺傳層的多級學習
進化計算通過選擇、重組、變異和再生等途徑爲主體間的信息共享提供了媒介。表觀遺傳學除了具有相應的遺傳學價值外,還通過進化過程遺傳給下一代。集體學習就是在這個過程中通過重組而產生的。基於上述新穎性度量,所有具有相似值的行爲都被分組。然後,同一羣體中的行爲將一起進化,然後將構建顯著不同價值(新穎)的新行爲插入到待探索的行爲中。該方法作爲行爲空間中行爲集合的選擇壓力以克服欺騙性問題。另一個需要解決的挑戰是探索利用困境。爲了平衡探索和利用,εgreedy\varepsilon -greedy可以作爲一種選擇。通過將探索-利用平衡與新穎性度量相結合,探索有望走向新的行爲。
這裏只是對文章的思想進行剖析,對細節沒有重點介紹,有興趣的同學可以移步原文詳細分析。

未來工作

簡單來說未來工作是在該論文框架基礎上,做更多的仿真和實機實驗驗證,同時數理層面對整個框架模型的推理論證也將是重要工作。

希望該文檔能對大家有用,歡迎和大家交流,後續會在空間中更新個人學習經驗分享,涉及一些小技巧、matlab使用、羣體智能研究等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章