進化學習框架：改進自動羣機器人設計

原創

2020-05-23 12:20

進化學習框架：改進自動羣機器人設計

今天閱讀了《Evolutionary-learning framework: improving automatic swarm robotics design》，有些許啓發，將主要內容整理如下，供大家交流，文章的DOI號爲https://doi.org/10.1108/IJIUS-06-2018-0016，可將DOI號輸入到文章下載器進行文章下載。

摘要

目的：本文的目的是回顧自動羣體設計研究領域的進展現狀，並討論推進羣體機器人研究的可能解決方案。提出了一種基於表觀遺傳函數的羣體進化學習框架，並討論了該框架的優點和對未來研究方向的建議。討論表明，需要解決的主要挑戰是動態環境的存在，而動態環境的存在主要是由agent對agent和agent對環境交互引起的。解決這一問題的一個可能辦法是將學習能力融入到羣體中，以應對動態環境。

進化型羣機器人現狀

基於行爲的模型可能只解決特定的問題。隨着問題複雜性的增加，基於行爲的設計需要更多的努力來定義一個適應不可預測環境的數學模型。因此，需要一種更有效的方法來實現羣體的集體行爲。使用自動設計方法可以很容易地解決這個問題，從而實現集體行爲，而無需顯式地定義問題的模型。
將EA與swarm機器人技術相結合產生的解決方案稱爲進化羣，由於隨機變異和環境變化，往往會產生不可預測的結果。因此，爲了使進化羣體在動態環境中運行，必須收集來自環境的刺激信息，並在以後作爲知識使用，以便下一代EA制定更好的行動或行爲：基於外部刺激改進行動通常被定義爲一種學習機制（Mitchell，1997年）。然而，由於EAs主要受到達爾文進化論的啓發（達爾文，1872年），沒有直接的機制讓一代個體感知到外部知識被下一代個體（有時被稱爲Lamarckian paradigm）所繼承。換言之，遺傳性學習在EA中不起任何重要作用。因此，需要一種將學習框架融入進化羣的方法，以拓寬如何在動態環境中提高羣能力的視角。

在機器人學中，進化計算（Goldberg，1989）可用於將控制策略的特徵編碼爲人工染色體（Holland，1992）。每個染色體代表每個策略的特定特徵，並使用適應度函數評估其適應度值（性能）。高適應值染色體（一組策略）可以通過重組、隨機突變和選擇等遺傳算子進行繁殖。具有較高適應度等級（新策略）的後代將取代上一代中具有最低適應度等級策略的後代。這種發展是重複的，直到新一代的適應值達到指定的標準。這種在機器人學中生成控制策略的方法被定義爲進化機器人學（ER），如圖1所示（Nolfi等人，2016年）。

學習型羣機器人現狀

基於MAS的RL允許個體通過與環境和其他因素的反覆試驗來學習行爲（Kaelbling等人，1996；Sen和Weiss，1999；Sutton和Barto，1998），見圖2。在每次交互中，在環境的相應狀態下的每個智能體的行爲都會根據其性能得到獎勵。利用獎勵之和，將行爲和狀態配對成一組行爲狀態，作爲羣體在某一環境狀態下的行爲準則。

羣機器人中的RL利用了多智能體設置的優點。首先，多智能體設置允許以並行方式計算學習過程。第二，一個智能體從與環境的反覆交互中感知到的知識可以與其他具有相似任務的智能體共享。教學和模仿是小組內共享媒介的例子。最後，當一個或多個智能體無法完成任務時，也可以應用冗餘。當失敗發生時，剩餘的代理可以接管並完成任務。

進化學習框架

當前的羣體機器人設計方法分類如下圖3.

儘管進化計算和RL在羣體自動設計中具有許多優點，但是利用自動設計來實現羣體的集體行爲仍然存在一些挑戰。包括欺騙性（陷入局部最優）、探索與利用困境、非平穩行爲、維度災難等。因此很多工作關注於如何改善這些問題。主要從保持多樣性、平衡探索利用、實現納什均衡、提升適應性。（具體就不展開了，有興趣的可以去原文看）。基於以上考量，作者提出了進化學習框架，具體如圖4.

進化計算通過選擇、重組、變異和再生等途徑爲主體間的信息共享提供了媒介。表觀遺傳學除了具有相應的遺傳學價值外，還通過進化過程遺傳給下一代。集體學習就是在這個過程中通過重組而產生的。基於上述新穎性度量，所有具有相似值的行爲都被分組。然後，同一羣體中的行爲將一起進化，然後將構建顯著不同價值（新穎）的新行爲插入到待探索的行爲中。該方法作爲行爲空間中行爲集合的選擇壓力，以克服欺騙性問題。另一個需要解決的挑戰是探索利用困境。爲了平衡探索和利用， $\varepsilon -greedy$ 可以作爲一種選擇。通過將探索-利用平衡與新穎性度量相結合，探索有望走向新的行爲。
這裏只是對文章的思想進行剖析，對細節沒有重點介紹，有興趣的同學可以移步原文詳細分析。

未來工作

簡單來說未來工作是在該論文框架基礎上，做更多的仿真和實機實驗驗證，同時數理層面對整個框架模型的推理論證也將是重要工作。

希望該文檔能對大家有用，歡迎和大家交流，後續會在空間中更新個人學習經驗分享，涉及一些小技巧、matlab使用、羣體智能研究等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

進化學習框架：改進自動羣機器人設計

進化學習框架：改進自動羣機器人設計

摘要

進化型羣機器人現狀

學習型羣機器人現狀

進化學習框架

未來工作

釘釘打卡速度慢

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

latex宏包更新（必行）（miktex+texstudio）

Matlab的find()函數用法總結

異構羣體機器人協作任務分配（羣體智能論文學習）

博士的一天（找回信念版本）

博士的一天（起早貪黑版本）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結