翻譯:羣體機器人任務綜述《A review of swarm robotics tasks》


翻譯自文章:A Review of Swarm Robotics Tasks
引用格式:Bay?nd?r, Levent. A Review of Swarm Robotics Tasks[J]. Neurocomputing, 2015:S0925231215010486.


  談不上翻譯,說白了就是自己英語太爛,每次看論文都要Google翻譯,感覺太麻煩,所以就直接把翻譯好的中文修改下粘貼在這兒了,很多不通順的地方,建議大家去看原文《A review of swarm robotics tasks》。


3. Aggregation

自組織聚合,即在一個共同的地方聚集一些自主個體的任務,是在自然界中廣泛觀察到的具有許多動物物種的基本行爲。 已經提出了各種數學模型來描述聚合,並且已經設計了具有各種算法的機器人系統以實現聚合動力學。 此任務既可以作爲獨立問題進行研究,也可以在需要聚集多個Agents的特殊任務的上下文中進行研究。


3.1. 方法(Methods)

大多數羣體機器人研究提出了一種在人工羣體中獲得聚合的算法,使用以下設計方法之一來控制機器人運動:虛擬力的應用(人工物理),基於概率方法的機器人行爲控制,以及人工進化。


3.1.1. 人工物理學(Artificial physics)

  在自由聚合算法中,機器人被賦予聚合任務而不需要特定聚合站點,因此機器人原則上可以在它們移動的場所內的任何位置以相同的可能性聚集。

  人工物理學是一個研究領域,使用虛擬力來模擬個體行爲者的行爲。 這些力決定了藥劑的運動,從而決定了藥劑與周圍環境之間的相互作用。 在自然界中觀察到的許多動物形態(例如昆蟲羣,鳥羣和魚羣)可以用吸引力(不同的物質傾向於彼此靠近)和排斥力(防止個體之間的碰撞)建模。 每個代理根據其每個鄰居施加在其上的力而移動,這取決於鄰居距離。 通常,如果兩個試劑之間的距離大於目標值,則該力是有吸引力的,並且對於較小的距離值是排斥的。

  儘管人工物理學已經成功地用於正式表徵羣體自主代理的聚合動力學[14-18],但它在具有真實機器人的人工系統中的實際實施對機器人傳感能力提出了一些要求,這可能不具有成本效益。具有局部感測能力的機器人通常具有有限的可見範圍,這影響了在環境中感知其他機器人的能力;鄰居的相對取向的確定可能受到高誤差的影響,例如當使用紅外技術時;機械約束通常決定機器人執行器的飽和效應,有效地限制調節機器人運動的控制輸入的幅度。由於這些原因,只有少數研究考慮應用人工物理規則來控制機器人運動。其中一項研究是Priolo [19]的工作,其中基於人工物理學的羣聚合算法被實現並用真實機器人進行測試。該算法通過射頻和紅外技術獲得相鄰機器人的距離和相對方向;像往常一樣,吸引力在機器人之間的高距離值處更強,而排斥在低距離值處占主導地位。另外,設計了一種障礙物避免機制,其中障礙物被建模爲虛擬機器人;爲了避免機器人和障礙物之間的吸引力,虛擬機器人僅在它們與真實機器人的距離使得排斥強於吸引力時才被激活。


3.1.2. 概率方法(Probabilistic methods)

  利用概率方法,每個機器人的行爲部分地以隨機方式確定,並且部分地基於其與周圍環境的相互作用。 這種類型的行爲在自然界中發現,具有許多社會昆蟲,例如蜜蜂和蟑螂,並且已經廣泛用於各種研究以使用簡約機器人獲得聚集。

  從社會昆蟲中獲取靈感,許多概率機器人控制算法使用有限狀態機實現聚合,其特徵在於兩個基本狀態:步行和等待[20-32]。在每個狀態對應一個特定的機器人行爲;使用中的不同狀態(以及每種狀態下實施的行爲)在算法之間有所不同,但在各種聚合研究中可以找到許多相似之處。在某些情況下,步行狀態被分爲兩種不同的狀態:一種是機器人試圖接近其他機器人的狀態,另一種是距原理其鄰居[33,34]。在狀態之間切換的決定可以採用純粹隨機的方式,或基於局部線索,這可能與附近機器人的存在一樣簡單,或者可能涉及更復雜的算法和信令機制[35,36]。有限狀態機的參數,例如狀態之間切換的概率,通常由羣設計者手動選擇,但是最近提出了基於自動設計的替代方法[37]。

  概率聚合方法的一個共同點是存在不穩定的聚集體,機器人不斷地連接和離開它們。聚合動力學是由於鄰近機器人的檢測引起的機器人行爲隨機性的變化:雖然分解的機器人通常在環境中隨機移動,但聚合機器人的動態更具確定性。然而,聚合機器人行爲中的隨機分量通常是必要的,以促進少量大聚集體的形成,避免了小聚集體的存在阻止機器人加入較大聚集體的情況。在使用與有限狀態機不同的控制算法的研究中,通常在聚合和非聚合機器人之間沒有明顯的區別,但是可以基於諸如機器人之間的平均距離的度量來測量羣動力學,並且機器人運動的隨機性可以連續變化[38]。


3.1.3. 進化方法(Evolutionary methods)

  利用進化方法,使用通過人工進化選擇參數的機器人控制器獲得聚合動力學。 將傳感輸入與執行器輸出相關聯的神經網絡是使用這些方法演變的常見類型的控制器。 根據使用的算法,傳感輸入可以包括能夠檢測環境特徵的設備[39],執行器輸出可以包括使機器人能夠與其他機器人通信的設備[40]。 用於人工進化的算法的例子是遺傳算法(genetic algorithms)[39,40]和q-錦標賽選擇(q-tournament selection)[41]。

  標準的進化規範被用來測量給定一代個體完成任務的能力的適應度值。用於通過人工進化來進化羣體的標準範例基於測量給定一代個體完成任務的能力的適應度值。戈麥斯等人。 [42]基於新穎性搜索的概念提出了一種不同的算法。與基於適應性的進化相反,新穎的基於搜索的進化獎勵機器人,其行爲不同於過去幾代人觀察到的行爲。該方法允許避免基於適應度演化的可能缺點,其中參數空間中的適應度函數的局部最大值可能阻止探索空間的其他部分並因此限制進化。在[42]中,當新穎性搜索應用於聚合任務時,通過測量諸如每個機器人與所有機器人的質心的平均距離或總數的度量來完成給定代的行爲的表徵。聚合數量;在模擬期間的多個時刻測量這些度量,並且將它們的值(在不同模擬中平均)插入行爲表徵向量中,該向量用於計算行爲之間的相似性。作者使用新穎性搜索和基於適應度的演化來比較模擬結果,並且表明,雖然後者通常更好地在多代之後找到聚合任務的最佳參數,但是在新一代搜索期間獲得了更好的結果。進化,並在後代中略微細化,產生的性能值與基於適應性進化的那些相似。

  新穎的基於搜索的方法依賴於機器人行爲之間的相似性度量,從中可以評估給定機器人的新穎性。 Gomes和Christensen [43]提出了兩種獨立於特定羣級任務的相似性度量,因此可以在不具備手頭任務的領域知識的情況下使用。這兩種測量都是基於評估每個機器人中實現的神經控制器的狀態;狀態定義爲包含給定時間控制器的輸入和輸出值的向量。稱爲組合狀態計數的第一個度量通過離散控制器的可能狀態並在實驗運行期間計算每個狀態的出現(以定義的間隔採樣)來表徵行爲。第二種措施稱爲採樣平均狀態,並且基於計算包含以固定間隔採樣的機器人羣的平均狀態(即通過平均所有機器人的狀態獲得的狀態)的矢量。當針對聚合任務進行評估時,兩種度量都顯示出良好的結果,與使用特定於域的相似性度量獲得的結果相當。


3.2. 算法(Algorithms)

3.2.1. 自由聚合(Free aggregation)

  在自由聚合算法中,機器人被賦予聚合任務而不需要特定聚合站點,因此機器人原則上可以在它們移動的場所內的任何位置以相同的可能性聚集。

  廣泛研究的概率聚合算法從蟑螂中觀察到的行爲中獲得靈感。 在蟑螂聚集的簡化模型中,這些昆蟲在環境中隨機移動並基於檢測到的鄰居的數量停在給定位置:停止的概率是在限定的感測範圍內檢測到的蟑螂數量的函數,具有 蟑螂數量越多,停止的概率就越高。 相反,停止的蟑螂可以在任何時間恢復隨機行走,可能留下聚集體,並且當檢測到的蟑螂數量較低時,切換到步行狀態的概率更高。 通過這種簡單的行爲,封閉場地中蟑螂之間隨機遭遇的動態導致聚集體的形成,如各種模擬實驗所證明的[29]。

  在[31]中,機器人由具有三種狀態(隨機行走,接近和等待)的有限狀態機控制,行走狀態持續一段固定的時間,之後機器人感知其周圍區域:如果它檢測到其他 機器人,它切換到接近狀態,在那裏它移向最近的被檢測機器人,然後切換到等待狀態,否則它直接切換到等待狀態; 從該狀態開始,機器人以預定義的概率切換回隨機遊走。 使用該算法,全局聚合動力學受到機器人在隨機行走後檢測其他機器人的概率的調節,大型聚合體比單個機器人更容易檢測。

  Bayındır[34]提出了另一種基於有限狀態機的算法,其中使用稱爲搜索,等待,離開和改變方向的四種狀態獲得聚合行爲。 當搜索機器人檢測到其他機器人的存在時進入等待狀態,該狀態設計的目的是使得機器人試圖與其每個鄰居保持固定的距離; 這允許形成具有近似圓形形狀的緻密聚集體。像往常一樣,爲了防止出現小的個體阻止形成大的羣體,機器人可以在任何時間以定義的概率離開羣體。

  在[33]中,在模擬機器人系統中獲得聚合,其中每個機器人配備有全向揚聲器和一組麥克風,並使用其他機器人發出的聲音來確定它們的相對方向和接近度。 機器人中實現的有限狀態機的基本狀態稱爲逼近,等待和排斥。 在接近狀態下,機器人向最大聲音方向移動,而在擊退狀態下,機器人向相反方向移動; 當處於接近狀態的機器人感知到另一個近距離的機器人時,它切換到等待狀態,在那裏它停留在當前位置; 從該狀態開始,它以給定的概率切換到排斥狀態,然後以另一個概率值返回到接近狀態。

  在[35]中,Trianni等人。 提出了一個系統,其中機器人配備了一個光源,可用於發出信號。 從其感官知覺(機器人能夠檢測其他附近機器人的存在並測量接收光的強度),每個機器人創建一個上下文,即周圍環境的高級抽象; 在每個時刻,機器人在一組預定義的行爲中隨機選擇其行爲(包括打開和關閉其光,並朝向或遠離其他機器人移動); 基於感知的上下文來定義選擇各種行爲的概率。 通過指定感知輸入如何映射到感知上下文並定義從每個可能上下文激活基本行爲的概率,該通用算法可以適應不同的集體任務; 如作者所示,聚合是可以執行的任務之一。

  在[30]中,聚合機器人離開聚合體的概率取決於其相對於聚合中其餘機器人的方向; 指向聚合體中心的機器人比指向其他方向的機器人具有更低的離開概率。 在自然界中發現的各種實例例如分子組裝之後,聚集體的穩定性根據其機器人之間的鍵的能量來描述,這是機器人的相對取向的函數。 爲簡單起見,作者將他們的討論限制在兩個機器人聚合體中,其中聚合體的能量等於其兩個機器人之間的粘合能量。

  Gauci等人。 [41,44]使用簡約聚合算法,其中來自環境的機器人獲得的傳感器輸入限於一個二進制變量,該二進制變量指示在他們的視線中是否存在另一個機器人。 在[41]中,聚合是通過人工進化獲得的。 在[44]中,如果在他們的視線中沒有感知到機器人,則控制算法使機器人沿圓形軌跡向後移動,否則在現場旋轉; 如果機器人傳感器具有足夠長的範圍,作者將顯示這種簡單的機制來提供緊急聚合。 然而,由於缺乏類似於隨機遊走的行爲,如果機器人最初放置在彼此之間的距離大於其感測範圍的情況下則不能保證聚合。

  在[40]中,配備有麥克風,接近傳感器,輪子和揚聲器的機器人由神經網絡控制,其參數是用遺傳算法演化的。作者觀察到兩種集體行爲的出現:靜態和動態聚合。第一種類型確定了緊湊和靜態聚合體的形成,其顯示爲不可縮放,因爲競技場中的許多機器人傾向於形成多個不相交的聚類。通過動態聚合,形成的聚合不那麼緊湊,但在競技場中繼續移動,並且當存在許多機器人時,這導致不同的聚合連接並形成單個聚合,從而顯示出更多的可伸縮性。在[45]中,評估類似的機器人系統運行具有不同設置的多個實驗,並且根據演化行爲的性能和可擴展性評估諸如競技場大小和機器人數量的不同特徵的影響。在[42,43]中,利用新穎性搜索的概念實現了人工進化。

  在[36]中,使用動態變化的環境給集羣提供聚合動力學,活動環境能夠在機器人發射的長距離信號中傳播。 作者提出的聚合算法的靈感來自於通過化學試劑的擴散形成多細胞生物。 每個機器人發出一個信號(發射率由一個特定的參數調節,稱爲發射率),在周圍環境中傳播; 其他機器人(在沒有這個信號的情況下可以保持在當前位置,或者在隨機方向上移動)被這個信號吸引並向其源頭移動。 通過這種機制,機器人傾向於相互移動並形成一個或多個聚合體。 在[46]中,這種聚合方法是用真實的機器人實現的。

  在其他研究中,聚合過程不被認爲是彼此非常接近的大多數靜態個體的集合的形成,而是根據給定空間中的機器人的密度來描述。例如,使用人工物理方法[14-19]獲得的聚合通常不適合精確識別離散聚集體。在[38]中,機器人能夠感知其鄰域的人口密度,機器人根據局部密度增加和減少其運動的隨機性,從而獲得聚集動態:低密度區域的機器人高度移動隨機趨勢,在高密度區域,機器人運動的隨機成分較低,導致機器人在鄰居數量較多的地區“穩定下來”。在[47]中,聚合算法由具有有限通信範圍的機器人之間的無線連接來控制。競技場中的機器人以恆定速度移動並定期發送包含其唯一標識符的無線消息;此消息允許接收機器人檢測存在並計算通信範圍內的機器人數量;每個機器人都試圖將這個數字保持在一個規定的閾值以上:如果相鄰機器人的數量低於閾值,則機器人反轉其運動方向,而當鄰居數量增加到超過閾值時,機器人執行隨機轉彎。因此,聚集體形成爲動態結構,其中每個機器人處於許多其他機器人的通信範圍內。


3.2.2. 環境介導的聚合(Environment-mediated aggregation)

  在環境介導的聚合算法中,機器人在環境中的位置會影響機器人的行爲,因此在某些定義的“優先”區域中以更高的概率實現聚合。大自然提供了許多受當地環境影響的個人聚合的例子。例如,蜜蜂傾向於在具有最佳溫度的區域聚集。蜜蜂無法感知環境中的溫度梯度。爲了克服這個困難,每隻蜜蜂都會利用其他種類的存在:它開始隨機移動直到它與另一隻蜜蜂相撞;當發生碰撞時,蜜蜂停止,並根據當地溫度保持停留一段時間;在這段時間過後,蜜蜂會繼續隨機行走,直到下一次碰撞。蟑螂表現出類似的行爲:它們傾向於在黑暗的地方聚集,並且在當地環境條件下以可能性(除了近距離檢測到的蟑螂的數量除外)停止隨機遊走。

  蜜蜂的聚集行爲已經在許多研究中得到了重複,物理機器人放置在一個封閉的舞臺上,競技場上方的光源用於模擬溫度梯度,機器人能夠感知局部亮度[20,22]]。 在[25]中,基本算法通過兩種修改得到增強:機器人基於局部亮度改變其步行速度,較高速度對應於較暗區域,並且當在大量鄰居附近停止時增加它們的等待時間。 在[48,49]中,聚合區域用聲源發出信號,機器人配備麥克風來測量聲音強度; 爲了提高聚合效率,每個機器人具有一組朝向不同方向的麥克風,並且當恢復行走時朝着聲源的估計方向移動。

  在其他研究[21,23,50]中,兩種不同的光源被放入環境中,聚集動力學隨着光點的相對大小和強度而變化。 在場地中具有兩個光源的場景的特定情況是兩個源是相同的。 正如[24]中所解釋的那樣,在評估這種情景的實驗時,機器人傾向於在兩個相同來源中的一個下聚合。 這種行爲是對稱性破壞的一個例子,這在許多機器人系統中被觀察到,其中機器人在具有相同效用的兩個選項前面收斂於一致決定。

  蟑螂的聚集行爲類似於蜜蜂的聚集行爲,但蟑螂還具有檢測鄰居數量的能力,進入等待和行走狀態的概率取決於檢測到的鄰居的數量[51]。由於蟑螂往往喜歡黑暗的地方作爲休息場所,可用的黑暗地方的大小,就它們可以容納的蟑螂數量而言,會影響聚集動態;在[26-28]中,通過實驗和理論研究分析了這種情景。在[39]中,由神經網絡控制的模擬機器人羣用於複製蟑螂的行爲,共同選擇兩個相同的避難所中的單個靜止地點。機器人能夠檢測他們當前的位置是否在避難所內,並且能夠在有限範圍內計算相鄰機器人的數量。在遺傳算法中選擇神經控制器的最佳參數,選擇適應度函數以獎勵大多數機器人在單個掩體下聚集的行爲。在隨後的研究[37]中,使用概率有限狀態機獲得相同的行爲,其參數通過優化算法選擇。

  Schmickl等人 [32]研究了一種聚合場景,其中在具有兩個不同大小的目標區域的場地中移動的機器人必須在目標區域中形成與區域大小成比例的多個機器人的聚合。機器人能夠檢測它們是否在目標區域內,但無法測量該區域的大小。爲了實現聚合任務,每個機器人在其存儲器中保持與其對環境的感知相對應的標量值。機器人可以從通信範圍內的其他機器人接收其存儲器中的值;在預定義的時間間隔,機器人根據其是否在目標區域中以及從通信範圍內的其他機器人接收的值更新其存儲器中的值。機器人在競技場中的移動取決於其存儲器中的當前值:如果該值高於定義的閾值,則機器人嘗試接近其存儲器中具有最高值的相鄰機器人,否則機器人隨機移動。利用這種機制,儘管單個機器人的傳感能力有限,但通過本地通信獲得了對環境的“集體感知”。

3.3. 分析(Analysis)

3.3.1. 度量(Metrics)

  聚合任務的性能指標主要基於識別形成聚合的離散機器人組,或者測量競技場中所有機器人的空間分佈。在第一種情況下,需要對聚合的正式定義。通常,聚合體被定義爲一組機器人,使得對於該組中的任何一對機器人,存在將機器人形成的路徑彼此相隔最大距離的路徑;通常根據機器人的本地通信和感測範圍來選擇最大距離的值。在機器人由有限狀態機控制的研究中,可以通過其控制器處於“等待”狀態的機器人來識別聚合體。一旦採用合適的聚合定義,性能指標可以計算爲形成最大聚合的機器人數量與機器人總數的比率[45,31,44],或平均聚合尺寸[33,52] ]。通過觀察屬於不同大小的聚集體的機器人的分佈,可以對聚集動力學進行更深入的分析[35]。在目標是聚合給定區域中的機器人的任務中,通過位於目標區域[26,53,32,28,21,48]中的機器人數量或距定義的距離[22,50]一定距離給出共同的度量。

  第二種指標涉及在競技場中定位所有機器人並找到其空間關係的度量。 Soysal和Şahin[33]使用了每對機器人之間的距離總和; 其他研究使用機器人與羣體質心的平均距離[40-43]; Gauci等人。 [44]使用“機器人的第二個時刻(second moment of the robots)”,通過將每個機器人的距離與質心的平方相加來計算; Fatès[36]使用“邊界框比”,定義爲包含所有機器人的最小矩形表面在競技場總表面上的比率。

  聚合任務中的時間維度在性能度量中被考慮,該度量度量用於測量羣體實現聚合目標的速度[20,25,48,49]; 通常,此類指標計算爲從機器人隨機放置在競技場中的初始條件開始。,到給定百分比的機器人形成聚合所用的時間。

3.3.2. 模型(Models)

  聚集行爲已經被廣泛的在自然羣和人工羣研究,並且已經提出數學模型來預測羣體在實現自組織聚集中的性能。 這些模型允許從控制個體機器人行爲的參數計算描述羣體集體行爲的宏觀量。

  [14]中給出了一個數學描述,該數學描述了受人工物理規則影響的羣體成員之間的個體間關係如何決定羣體動態。使用用對流擴散方程表示的守恆定律模擬環境中Agents的空間密度;這個偏微分方程模擬了隨着時間的變化的密度變化,作爲擴散項的總和(模擬隨機移動的粒子朝向不太集中的區域的趨勢)和平流項(其解釋吸引力和排斥力,並確定非 - 代理運動中的隨機速度分量)。作者指出,對於局部平流(即一個模型,其中給定位置的速度僅是該位置處的Agents密度的函數),在自然界觀察到的許多蜂羣行爲無法建模;因此,提出了非局部平流項,其中速度計算爲粒子密度與核函數的卷積。然後,對流 - 擴散方程成爲積分微分方程。將核函數表示爲吸引和排斥項的組合,數學分析和數值模擬顯示這兩個因素如何影響羣的時空特徵。

  在[15]中,由Agents形成的空間模式是通過一個沒有擴散項的守恆定律來研究的:平流方程。 考慮非局部平流類型,並且針對不同的核函數(在[15]中稱爲相互作用勢)導出該方程的穩態解。 該解決方案顯示了從均勻的Agents分佈開始形成各種聚集模式。 此外,分析了確定達到穩態所需時間的動態,這可以提供對影響聚合性能的因素的有用見解。

  在[16]中,利用Lyapunov理論研究機器人羣體,其中機器人之間的相互作用以遠程吸引力和短程排斥力爲特徵,其允許找到系統的平衡點。 通過一組常微分方程描述了每個機器人相對於羣體質心的位置,並提出了機器人之間具有吸引和排斥分量的Lyapunov函數,以找到穩定的平衡點。 Lyapunov函數是根據三組參數定義的,稱爲耦合,內聚和收斂參數; 當系統收斂到穩定狀態時,平衡點,即每個機器人相對於羣體質心的位置組,被示出根據這些參數的值而改變。 通過計算機模擬,作者獲得了與社會動物在自然界觀察到的類似的各種蜂羣行爲。

  在[17]中,機器人在二維空間中以恆定速度移動,並且它們的相互作用分別由在短,中和長距離作用的三種力(排斥,對準和吸引)控制。具體地,對準力解釋了不同Agents在相同方向上移動的趨勢,如在許多動物物種組中觀察到的。Agents密度表示爲空間座標,航向和時間的函數,並使用積分微分方程建模,其中三個相互作用力的強度由特定參數確定。求解具有不同參數值的方程,可以獲得各種模式形式;例如,通過改變對準力的強度,方程的解決方案從類似羣體的模式(具有低對準力)變化,其單個Agents隨機移動但不向任何方向前進,到達羣體形成(具有高的)對齊力)其代理在沿共同方向移動時聚合。

  在[18]中,上述模型的聚合動力學擴展了另外兩個考慮因素:Agents可能具有非均勻視野,並且可能存在與第一組相互作用的另一組Agents。引入非均勻視野來更真實地模擬動物的行爲,這些行爲通常無法看到自己;因此,取決於其他Agents相對於第一Agents的視野的取向,Agents的位置和取向受到其他Agents的存在的影響。 [18]中引入的第二個因素是存在第二組Agents:通過組合系統,可以模擬不同動物物種之間的相互作用,例如捕食者 - 獵物關係。在數學模型中,這些相互作用由積分微分方程中的附加項(考慮到Agents組之間的吸引力和排斥力)表示,所述積分微分方程控制每個Agents的密度。通過求解這些方程,可以再現在不同動物的狩獵和逃逸策略中常見的捕食者和獵物運動的模式。

  在概率聚合方法中,表徵羣動力學的數學模型通常基於識別羣中可能發生的某些類型的有意義事件(例如,兩個移動機器人之間的相遇)並估計這些事件發生的概率。在[29]中,使用基於差分方程的模型研究蟑螂的聚集行爲,其允許在給定時間計算給定大小的聚集體中的預期機器人數量。該模型結合了聚合體大小變化的事件,例如機器人加入或離開聚合體時,通過模擬實驗驗證,並且能夠定性和定量地描述羣體聚集動力學;但是,僅報告了競技場中相對較少數量的機器人的結果。 Hu等人使用類似的建模方法[52]。在[30]中,聚合物的特徵在於表示聚集機器人之間的鍵強度的能量值,差異方程用於估計非聚集機器人和具有給定能量值的聚合體的數量的模型中。在[34]中,聚合動力學使用四個基本事件來描述:創造,成長,收縮和消散;利用利用幾何考慮的概率模型,計算每個事件的發生概率,並且顯示模型預測以匹配在各種操作條件下從機器人模擬獲得的實驗結果,包括具有相對大量機器人的情景。在[47]中,機器人可以在有限的範圍內建立無線連接,感興趣的主要事件是當兩個機器人彼此之間獲得或失去連接時,並且宏觀模型估計具有給定數量的連接的機器人的數量,即通信範圍內的其他機器人。

  在聚合過程受環境的局部特徵影響的算法中,數學模型必須考慮這些特徵,並且集體動力學可以用指定用於聚合的區域內的機器人數量來表示[21],或者用機器人的密度表示爲空間座標的函數[53,54]。在[20]中描述了模擬蜜蜂聚集的實驗裝置,並且在給定區域中形成特定尺寸的聚集體的概率與該區域的亮度和諸如場地中的機器人的密度之類的其他參數相關,如它們的速度和感應範圍。 Hamann 等人 在[22]中提出了兩種模型來估計模擬蜜蜂聚集行爲的移動和聚合機器人的時變模式。在第一個模型中,稱爲隔室模型,將競技場分成以光源爲中心的同心環,並且用常微分方程估計每個環中的移動機器人和聚合體的數量。在第二個模型中,競技場中的空間不是分成不連續的區域,而是表示爲連續變量,移動和聚合機器人的密度表示爲空間和時間變量的函數,並通過偏微分方程求解。 Schmickl等人 [23]分析了兩個不同強度光源的場景,使用庫存和流動模型研究了聚集動力學,利用該模型預測了兩個光源中每個光源附近聚集的機器人數量和移動機器人的數量,第二個模型使用偏微分方程估計移動和聚合機器人的空間分佈。



4. 蜂擁(Flocking)

  蜂擁是許多鳥類在自然界中觀察到的行爲,其形成大羣個體一起朝向共同的目標位置移動。在動物中發現的類似集體行爲的其他例子是魚類學校教育(fish schooling)和有蹄類動物的畜羣形成。由於自主Agents之間的局部相互作用,這些行爲以集散的方式出現在集體層面,因此羣體機器人研究人員感興趣,他們在動物行爲的基礎上研究機制,並嘗試複製使得機器人羣蜂擁。在大多數現有工程中,具有有限傳感能力的機器人必須通過測量其鄰居的距離和相對方向來保持緊湊的形態;單個或一組機器人在其他機器人的感測和通信範圍之外的情況通常不在蜂擁研究中考慮,其中通常的假設是所有機器人至少有一個鄰居將它們連接到其餘的羣體。


4.1. 方法(Method)

  如上所述,實現蜂擁所需的機器人行爲的基本組成部分是測量相鄰機器人的距離和相對方向的能力。 通常在真實世界場景中發現的有限傳感和通信範圍具有實際意義,即只有有限數量的鄰居,而不是羣體的整個羣體,被給定的機器人檢測到,但是這種限制(另一方面可以是 在考慮可擴展性和處理複雜性因素時被視爲優勢)並不妨礙實現蜂擁的能力,前提是羣內沒有孤立的個體或羣體。

  與簡單聚合相比,蜂擁在羣體水平上具有重要的附加特徵:機器人運動的對齊,其允許羣體在給定方向上集體移動。 在一篇開創性的論文中,雷諾茲[55]用三個基本規則模擬了蜂擁動物的行爲:碰撞避免,速度匹配和蜂擁定心。 如果機器人被賦予瞭解其鄰居的前進方向的能力,則可以利用這種能力來實施蜂擁[17,56-61]。 然而,關於鄰居標題的知識並不是固定的要求,正如各種機器人沒有這方面知識的研究[62-66]所證明的那樣。


4.2. (算法)Algorithm

  蜂擁動物物種通常能夠在環境中定向自身,因此可以移向所有個體已知的共同目標位置。 通過使單個機器人能夠到達全局目標位置,或者至少沿着公共參考系上的給定方向移動,在工程系統中複製這種情況。 然而,羣體機器人學科通常傾向於使用簡約機器人,羣體成員很少或沒有共享全球信息,並且過去的工作已經證明,在沒有全球信息的情況下也可以獲得蜂擁。 在下文中,回顧了一些關於蜂擁行爲的著名研究中提出的算法,區分了依賴於全局目標位置或方向的方法與沒有這種共享知識的方法。


4.2.1. 全局目標的方向(Direction by global target)

  如果羣體的一些或所有成員知道羣體將要到達的目標位置,則這種知識可用於指導機器人移動,並且通常確定Agents的近似前進方向。 羣組成員在共同參考框架上共享全局目標方向的情況在概念上是類似的。 如果羣體中的所有機器人都知道目標,則機器人之間的局部相互作用主要用於在避免碰撞的同時保持緊湊的形成。 在僅一些機器人(通常稱爲“知情機器人”)知道目標的情況下,也可以使用局部交互來將該知識傳播到整個羣。

  在[62]中提出了一種蜂擁算法,其中機器人的任務是導航到目標位置,同時保持與相鄰機器人的目標距離; 爲了完成這個任務,在每個時間步驟,各個機器人計算一個“質心”,它表示短期內要達到的所需位置,併產生致動器命令以移向該位置。 考慮相鄰機器人的距離和相對方向以及最終目標位置來計算質心。 另外,實現了碰撞避免機構,並且當檢測到緊鄰的障礙物時接管機器人的控制。 定義了一個成本函數,用於衡量算法在完成任務時的性能; 該成本函數用作離線機器學習技術的性能度量,通過該技術可以找到算法參數的最佳值。

  Baldassarre等人[63]使用人工進化實現蜂擁與一羣機器人配備紅外傳感器(用於檢測附近存在的障礙物和其他機器人),麥克風(通過它可以確定其他機器人的相對位置)和光傳感器( 用於檢測全局目標)。 每個機器人連續發出固定振幅的聲音,以便它可以向超出紅外傳感器覆蓋範圍的其他機器人發出信號。 用於人工進化的適應度函數包括羣體緊湊度分量,以及測量羣體接近目標的進度的速度分量。 從進化過程的各種複製中,作者獲得了不同的蜂擁行爲。

  在[64]中,基於Null-Space的行爲(NSB)控制被提議用於蜂擁任務。 當每個子任務由特定行爲完成時,NSB控件用於確定存在多個子任務時機器人的行爲。 通過NSB控制,將不同的優先級分配給不同的行爲,並且通過在從優先級較低的行爲中移除與優先級較高的行爲衝突的組件之後的單個行爲來獲得機器人的最終行爲。 在蜂擁的具體情況下,確定了三種行爲,即避障,羣體形成和目標導航,優先順序遞減。 每個行爲對應於機器人移動的控制輸入,並且調整較低優先級行爲的控制輸入以便不與較高優先級行爲的控制輸入衝突。 調整後的控制輸入的總和決定了必須如何控制機器人才能完成任務。

  在只有一小部分機器人知道全局目標的情況下,機器人所經受的運動控制輸入取決於它們是否被通知;在各種研究[57,66,61]中遵循的典型方法是將目標方向矢量作爲通知機器人的運動控制輸入中的附加部件。通過本地交互,知情機器人可以將目標上的信息傳播到其他機器人,並將羣體引導向目標。在[58]中,實施信息感知通信策略,其中知情機器人向其鄰居發送目標方向矢量,而非信息機器人發送從其鄰居接收的平均航向矢量。在[59]中,上述策略擴展了一種機制,允許處理具有不同優先級的多個目標方向,以便當出現更高優先級的方向時,通知新目標的機器人能夠操縱羣並覆蓋較低的目標。 - 優先方向;每個機器人向其鄰居發送的航向矢量是鄰域中平均航向和目標方向(如果已知)的加權和,其中權重值是根據機器人之間關於優選方向的局部共識程度動態選擇的。 :當達成高度共識時,知情機器人會對其目標方向給予很大的重視,否則他們的行爲與非知情機器人的行爲更爲相似,這有助於向更高優先級目標傳播羣組信息。在[61]中,沒有使用機器人之間的明確通信,並且每個機器人檢測其鄰居並在其周圍定義一組區域來實施蜂擁:排斥區域,方向匹配區域,吸引區域和正面交互區域;然後根據每個區域內的鄰居的位置計算機器人航向方向向量。

  在只有一小部分機器人知道全局目標的情況下,機器人所經受的運動控制輸入取決於它們是否被通知;在各種研究[57,66,61]中遵循的典型方法是將目標方向矢量作爲通知機器人的運動控制輸入中的附加部件。通過本地交互,知情機器人可以將目標上的信息傳播到其他機器人,並將羣體引導向目標。在[58]中,實施信息感知通信策略,其中知情機器人向其鄰居發送目標方向矢量,而非信息機器人發送從其鄰居接收的平均航向矢量。在[59]中,上述策略擴展了一種機制,允許處理具有不同優先級的多個目標方向,以便當出現更高優先級的方向時,通知新目標的機器人能夠操縱羣並覆蓋較低的目標。- 優先方向;每個機器人向其鄰居發送的航向矢量是鄰域中平均航向和目標方向(如果已知)的加權和,其中權重值是根據機器人之間關於優選方向的局部共識程度動態選擇的。 :當達成高度共識時,知情機器人會對其目標方向給予很大的重視,否則他們的行爲與非知情機器人的行爲更爲相似,這有助於向更高優先級目標傳播羣組信息。在[61]中,沒有使用機器人之間的明確通信,並且每個機器人檢測其鄰居並在其周圍定義一組區域來實施蜂擁:排斥區域,方向匹配區域,吸引區域和正面交互區域;然後根據每個區域內的鄰居的位置計算機器人航向方向向量。


4.2.2. 緊急方向(Emergent direction)

  在上一節中回顧的研究中,關於目標方向的信息要麼直接編碼在機器人控制器中,要麼由羣中的一些或所有機器人感知,並確定蜂擁方向。 如本節所示,即使沒有這些信息也可以獲得蜂擁,並且個別機器人最初在隨機和不相關的方向上移動:在這種情況下,羣體級的全局運動方向可以從局部相互作用中出現。

  Fetecau [17]研究動物形態的工作不僅爲聚集行爲提供了數學模型,而且爲蜂擁提供了數學模型:具體而言,每個Agents傾向於調整其相對於鄰居的運動方向來產生蜂擁模式,從本地互動中產生全球化的方向。

  Möslinger等人 [65]描述了使用具有四個紅外傳感器的模擬機器人的蜂擁算法。 每個傳感器都可以主動使用,即它發出紅外光並檢測光是否被附近物體(另一個機器人或障礙物)反射,或被動地檢測,即它檢測是否有另一個紅外光源(即另一個機器人)是 在其感應範圍內。 機器人在二維場地中以恆定速度移動,並使用傳感器連續監視附近物體在所有方向上的存在,根據基於碰撞避免,羣體分離和蜂擁凝聚規則的算法調整其移動方向。 作者通過實驗驗證,使用適當的算法參數值,本地機器人交互產生了蜂擁行爲。

  Turgut等人[56]採用真實機器人實施蜂擁,配備紅外傳感系統,測量附近機器人和障礙物的距離和相對方向,並配有數字羅盤和短距離無線通信模塊,以測量其前進方向和方向他們的鄰居。通過組合近端控制和前導對準來獲得蜂擁。近端控制行爲使用紅外傳感系統,該系統能夠將相鄰機器人與障礙物區分開,並試圖與相鄰機器人保持所需距離並避開障礙物;航向對準系統用數字羅盤測量航向,用無線信息週期性地傳輸該信息,並嘗試將機器人與其鄰居的平均方向對齊,根據從鄰居收到的消息計算。近端控制和航向對準的組合產生期望的航向方向,其被轉換成調節機器人運動的致動器命令。

  費蘭特等人[66]使用獨特的近端控制獲得了蜂擁行爲,沒有對齊控制。 在他們的系統中,近端控制的實現類似於[56]中的實現; 這種方法的新穎之處在於運動控制公式,它將所需的速度矢量轉換爲前向和角速度。 在這些公式中,機器人由於前向速度的偏差項而傾向於向前移動,但也可以向後移動; 如通過模擬實驗和真實機器人所示,該運動控制方法能夠產生緊急的全局運動方向。

  在[60]中,在真實的飛行機器人中實現了在三維空間中的蜂擁。 機器人的控制算法包括用於避免碰撞的排斥力和用於對準鄰居的前進方向的對準力; 通過本地無線通信獲得鄰居的相對位置和方向。 對準力被定義爲粘性的,類似摩擦力的力,根據作者的說法,該力防止了由於噪聲和傳感和通信延遲引起的羣體可能的不穩定性


4.3. 分析(Analysis)

4.3.1. 度量(Metrics)

  目前已經提出了各種度量來對蜂擁性能進行定量評估。一個常見且直觀的度量由機器人羣的質心覆蓋的距離給出[56,65],其中給定時間的質心被計算爲機器人位置的平均值。在[62]中,機器人位於一個正方形的舞臺上,其任務是從競技場的一個角落移動到另一個角落,系統性能被定義爲完成任務所需的時間,平均行進距離的組合。由機器人和平均機器人間距離;這些因素結合起來形成成本度量,用於學習機器人控制參數的最佳值。 Baldassarre等人[63]使用三個統計測量來表徵蜂擁羣中的個體和羣體行爲:“羣體穩定性指數”,“羣體角色指數”和“旋轉指數”。在[17]中,通過在實驗開始後的特定時刻測量空間密度和航向方向值的分佈來描述蜂擁行爲:通過在實驗過程中採用不同的“屏幕截圖”,對羣體的深刻表現可以分析行爲。在[60]中,通過比較每個機器人的前進方向與羣中任何其他機器人的方向來計算蜂擁的相干性。在[56]中,Turgut等人。使用了許多度量來評估其機器人控制算法的性能:羣體順序,由每個機器人的標題方向向量的總和(相對於羣體標準化)給出,值接近1表示有序狀態,而處於無序狀態的羣體的特徵是值接近0;羣體熵隨時間的變化,其中熵計算通過個體間距離的最大值定義羣集並計算屬於這些羣集中的每個羣集的機器人的數量(良好的蜂擁行爲是改變隨着時間的推移熵大約爲零);羣體速度,即實驗過程中羣體中心的平均速度;最後,最大集羣中的機器人數量在蜂擁期間沒有碎片化。

  如果定義了蜂擁任務,以便機器人應朝着全局目標方向發展,那麼性能指標必須包含此方向。 例如,在各種研究[57-59,66]中,準確度值測量機器人的平均方向與目標方向的差異,並且在[66]中,有效行進距離投射表示質量中心位移的矢量。 指向目標方向的向量上的羣。


4.3.2. 模型(Models)

  從雷諾茲[55]的工作開始,已經提出了各種自組織蜂擁的數學模型來研究自然羣體的運動或激發能夠在人工系統中再現這種集體行爲的機器人控制器的設計。這些模型都基於機器人間吸引和碰撞避免的共同原理,並且可以包括其他因素,例如速度匹配和目標方向的存在(所有機器人可能知道或僅由其中的一小部分知道)。控制羣體行爲的方程可以通過宏觀量的函數來表達(例如在[17]中,其中羣體以粒子的局部密度來表徵),或者更常見地,作爲單個機器人運動的控制律。然而,通過分析計算用給定的機器人控制算法可實現的蜂擁行爲的性能測量通常是不可能的,並且爲了評估算法的性能,除了用真實機器人進行實驗之外,現有的工作已經廣泛使用計算機模擬。



5. 覓食(Foraging)

  集體覓食任務受到殖民地螞蟻行爲的啓發,是羣體機器人中另一種常被研究的場景。 螞蟻和其他社會動物能夠利用個體之間的本地交互來有效地利用食物來源。 在用於覓食任務的人工羣體機器人系統中,特定區域被指定爲“巢”,並且羣的目標是找到散佈在環境中並將它們帶到巢中的物品。 多種覓食是覓食任務的擴展,其中必須收集不同類型的物品,並且每個物品被遞送到特定於物品類型的巢。 這類任務的實際應用包括排雷,危險廢物清理,搜救和行星探測。

  各種研究分析了由覓食活動引起的羣體能量的動態:機器人收集並帶到巢穴的物品,類似於食物來源,爲羣體帶來能量,而搜索活動則需要能量損失。 爲了最大化淨能量收入,每個機器人的控制算法應該確定機器人何時在環境中搜索物品帶到巢中以及何時機器人保持空閒。 由於這一方面與機器人之間的動態任務分配比與覓食活動本身更相關,因此本節不予考慮,但在專門用於任務分配的部分中調查過去提出該問題解決方案的工作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章