《Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning》譯文

原文鏈接 https://arxiv.org/pdf/1709.10082v1.pdf

Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning

翻譯：

摘要-在分散的場景中，爲多個機器人開發一個安全有效的碰撞避免策略是一個挑戰，在這種場景中，每個機器人生成其路徑而不觀察其他機器人的狀態和意圖。當其他分佈式多機器人避碰系統存在時，往往需要提取代理級特徵來規劃局部無碰撞動作，這在計算上是令人望而卻步的，而且不具有魯棒性。更重要的是，在實踐中，這些方法的性能遠遠低於它們的集中式方法。針對多機器人系統，提出了一種分散的傳感器級碰撞避免策略，該策略將原始傳感器測量值直接映射到代理的運動速度方向指令。作爲減少分散和集中方法之間性能差距的第一步，我們提出了一個多場景多階段訓練框架來學習最優策略。利用基於策略梯度的強化學習算法，在豐富複雜的環境下對大量機器人同時進行策略訓練。通過深入的性能評估，驗證了所學習的傳感器級碰撞避免策略在各種模擬場景中的有效性，並證明了所學習的策略能夠爲大型機器人系統找到時間效率高、無碰撞的路徑。我們還證明了所學習的策略可以很好地推廣到新的場景中，這些場景在整個訓練期間不會出現，包括導航一組異構的機器人和一個包含100個機器人的大規模場景。視頻可在https://sites.google.com/view/drlmaca上獲取。

I. INTRODUCTION

近來，多機器人導航已引起人們對機器人技術和人工智能的極大興趣，並具有許多實際應用，包括多機器人搜索和救援，人羣中的導航以及自動倉庫。多機器人導航的主要挑戰之一是爲每個從起始位置導航到期望目標的機器人制定安全可靠的防撞策略。

先前的一些工作（稱爲集中式方法）假設爲中央服務器提供了有關所有座席意圖（例如初始狀態和目標）及其工作區（例如2D網格圖）的全面知識，以控制座席的行爲。這些方法可以通過同時計劃所有機器人的最佳路徑來生成防撞動作。但是，這些集中式方法很難擴展到具有許多機器人的大型系統，並且當需要頻繁地重新分配任務/目標時，它們的性能可能會很差。此外，實際上，它們嚴重依賴機器人與中央服務器之間的可靠通信網絡。因此，一旦中央服務器和/或通信網絡發生故障，多機器人系統將崩潰。此外，當在未知且非結構化的環境中部署多個機器人時，這些集中式方法將不適用。

與集中式方法相比，一些現有的工作提出了代理級分散式衝突避免策略，其中每個代理獨立考慮其他代理的可觀察狀態（例如形狀，速度和位置）作爲輸入來做出決策。大多數座席級策略基於速度障礙（VO）[1] – [5]，並且它們可以爲雜亂工作區中的多個座席有效地計算局部無碰撞動作。但是，一些限制極大地限制了它們的應用。首先，基於仿真的工作[1]，[6]假設每個代理對周圍環境都有完美的感知，由於無處不在的感知不確定性，在現實世界中這種情況並不成立。爲了緩解完美感測的侷限性，以前的方法使用全球定位系統來跟蹤所有機器人的位置和速度[2]，[5]，或設計一種智能體間通信協議以在附近的智能體之間共享位置和速度信息[3]。 ]，[4]，[7]。但是，這些方法將外部工具或通信協議引入到多機器人系統中，這可能不夠魯棒。其次，基於VO的策略具有許多對方案設置敏感的可調參數，因此必須離線仔細地設置參數以實現令人滿意的性能。最後，就導航速度和導航時間而言，以前的分散方法的性能明顯低於集中式方法。

受基於VO的方法啓發，Chen等人。 [8]運用深度強化學習訓練了一個Agent級別的避免衝突策略，該策略學習了一個兩Agent值函數，該函數將Agent的自身狀態及其鄰居的狀態顯式映射到無碰撞行爲，而它仍然需要完美的感知。在他們的後續工作[9]中，部署了多個傳感器來執行分割，識別和跟蹤的任務，以便估計附近人員和移動障礙物的狀態。但是，這種複雜的管道不僅需要昂貴的在線計算，而且會使整個系統對感知不確定性的魯棒性降低。

在本文中，我們專注於傳感器級別的分散式碰撞避免策略，這些策略直接將原始傳感器數據映射到所需的無碰撞轉向命令。與代理程序級策略相比，不需要對相鄰代理程序和障礙物進行完美感知，也不需要針對不同情況進行離線參數調整。傳感器級別的衝突避免策略通常由深度神經網絡（DNN）[10]，[11]建模，並在大型數據集上使用監督學習進行訓練。但是，在監督下學習策略存在一些侷限性。首先，它需要大量的訓練數據，這些數據應涵蓋多個機器人的不同種類的交互情況。其次，在交互場景中不能保證數據集中的專家軌跡是最優的，這使得訓練很難收斂到一個可靠的解決方案。第三，難以手動設計適當的損失函數來訓練魯棒的碰撞避免策略。爲了克服這些缺點，我們提出了一種多場景多階段深度強化學習框架，以使用策略梯度法學習最優的避免碰撞策略。

主要結果：在本文中，我們解決了在完全分散的框架中避免多個機器人發生碰撞的問題，在該框架中，僅從機載傳感器收集輸入數據。爲了學習最佳的避免碰撞策略，我們提出了一種新穎的多場景多階段訓練框架，該框架利用了在一組複雜環境中在大型機器人系統中訓練的基於魯棒策略梯度的強化學習算法。我們證明，從所提出的方法中學到的避免碰撞策略能夠爲大型非完整機器人系統找到時間高效，無碰撞的路徑，並且可以很好地推廣到看不見的場景。它的性能也比以前的分散方法好得多，並且可以作爲縮小集中式和分散式導航策略之間差距的第一步。

正在上傳…重新上傳取消

圖1：使用我們學習到的策略的圓形場景中的機器人軌跡。注意，機器人是方形的。在這種情況下，直接對圓盤機器人訓練的策略進行測試，表明所學習的策略具有良好的泛化能力。

II. RELATED WORK

基於學習的碰撞避免技術已經被廣泛地研究於一種避免靜態障礙的機器人。許多方法都採用有監督的學習範例，通過模仿傳感器輸入和運動命令的數據集來訓練碰撞避免策略。穆勒等。文獻[12]通過訓練6層卷積網絡將監督的基於視覺的靜態障礙物避免系統訓練爲移動機器人，該6層卷積網絡將原始輸入圖像映射到轉向角。張等。 [13]利用基於後繼特徵的深度強化學習算法將先前掌握的導航任務中學習的深度信息傳輸到新的問題實例。警長等。 [14]提出了一種基於多模式深度自動編碼器的移動機器人控制系統。羅斯等。 [15]用模仿學習技術訓練了一個小型四旋翼直升機的離散控制器。四旋翼機僅使用一臺廉價攝像機就能成功避免與環境中的靜態障礙物發生碰撞。是，僅需學習離散運動（左/右），並且僅在靜態障礙物內訓練機器人。注意，上述方法僅考慮了靜態障礙物，並且要求駕駛員在各種各樣的環境中收集訓練數據。 Pfeiffer等人提出了另一種數據驅動的端到端運動計劃器。 [11]。他們使用ROS導航軟件包生成的專家演示訓練了模型，將激光測距結果和目標位置映射到運動命令。該模型可以在以前看不見的環境中導航機器人，併成功地應對突然的變化。但是，類似於其他監督學習方法，學習策略的性能受到標記訓練集質量的嚴重限制。爲了克服這個限制，Tai等。 [16]提出了一種通過深度強化學習方法訓練的無地圖運動計劃器。卡恩等。 [17]提出了一種基於不確定性模型的增強學習算法來估計先驗未知環境中的碰撞概率。但是，測試環境相對簡單且結構化，學習過的計劃人員很難將其推廣到具有動態障礙和其他主動代理的場景。

關於多智能體碰撞避免，最優交互碰撞避免（ORCA）框架[1]在人羣仿真和多智能體系統中很流行。 ORCA爲多個機器人提供了充分的條件，可以避免在短時間內相互碰撞，並且可以輕鬆擴展以應對具有多個機器人的大型系統。 ORCA及其擴展[2]，[5]使用啓發式或第一性原理構建了避免碰撞策略的複雜模型，該模型具有許多繁瑣且難以正確調整的參數。此外，這些方法對現實世界中普遍存在的不確定性很敏感，因爲它們假定每個機器人都具有對周圍特工的位置，速度和形狀的完美感知。爲了減輕對完美感知的需求，[3]，[4]，[7]引入了通信協議以共享狀態信息，包括組中特工的位置和速度。而且，ORCA的原始公式是基於完整的機器人，在現實世界中這種機器人比非完整的機器人要少見。爲了在最常見的差動驅動機器人上部署ORCA，已經提出了幾種方法來解決非完整機器人運動學的難題。 ORCADD [18]將機器人擴大到原始尺寸半徑的兩倍，以確保在不同約束條件下機器人的碰撞路徑暢通無阻。但是，這種擴大的虛擬機器人尺寸可能導致狹窄通道或非結構化環境中的問題。 NH-ORCA [19]使差動驅動機器人以一定的跟蹤誤差ε跟蹤完整的速度矢量。它比ORCA-DD更可取，因爲機器人半徑的虛擬增加僅是ε的大小，而不是半徑的兩倍。

在本文中，我們專注於學習一種避免碰撞的策略，該策略可以使多個非完整的移動機器人導航到其目標位置，而不會在複雜複雜的環境中發生碰撞。

正在上傳…重新上傳取消

圖2：我們方法的概述。在每一個時間步，每個機器人從環境中接收其對地面的觀察和回報，並在遵循策略π時生成一個動作。策略π在所有機器人之間共享，並通過基於策略梯度的強化學習算法進行更新。

III. PROBLEM FORMULATION（問題表述）

多機器人避碰問題主要是在歐氏平面上有障礙物的非完整差分驅動機器人和其他決策機器人的背景下定義的。在訓練過程中，N個機器人都被建模爲半徑R相同的圓盤，即所有機器人都是齊次的。

在每個時間步t，第i個機器人（1≤i≤N）有權訪問地面觀測，並在其處計算無碰撞轉向命令，驅動其從當前位置pt i接近目標gi。觀測值從概率分佈w.r.t.到基本系統狀態st i，ot i∼O（st i），僅提供部分狀態信息，因爲第i個機器人對其他機器人的狀態和意圖沒有明確的瞭解。與以往方法（如[1]、[3]、[4]、[6]、[8]、[9]）中應用的完美傳感假設不同，我們基於部分觀測的公式使得我們的方法在實際應用中更適用和更穩健。每個機器人的觀測矢量可分爲三個部分：ot=[ot z，ot g，ot v]（這裏爲了易讀性我們忽略機器人ID i），ot z表示其周圍環境的原始二維激光測量值，ot g表示其相對目標位置（即機器人局部極座標系中目標的座標），ot v是指它的流速。給定部分觀測ot，每個機器人獨立計算從所有機器人共享的隨機策略π中採樣的動作或轉向命令at：

轉存失敗重新上傳取消

其中θ表示策略參數。計算出的動作實際上是一個速度vt，它引導機器人接近目標，同時避免在∆t時間範圍內與其他機器人和障礙物Bk（0≤k≤M）發生碰撞，直到接收到下一次ot+1觀測。

因此，多機器人碰撞避免問題可以表述爲一個部分可觀測的順序決策問題。由機器人i的觀察和動作（速度）正在上傳…重新上傳取消組成的順序決策可視爲從起始位置正在上傳…重新上傳取消提升到期望目標正在上傳…重新上傳取消的軌跡，其中tg是行進時間。爲了總結上述公式，我們將正在上傳…重新上傳取消定義爲所有機器人的軌跡集，這些機器人受機器人運動學（例如非完整）約束，即：

正在上傳…重新上傳取消

爲了找到一個所有機器人共享的最優策略，我們採用了一個目標，即在相同的場景中，最小化所有機器人的平均到達時間的期望，定義爲：

正在上傳…重新上傳取消最小化同一場景中所有機器人的平均到達時間

式中，tg是由共享策略πθ控制的軌跡li in L的行進時間

在第五節中，平均到達時間也將被用作評估學習策略的一個重要指標。我們通過基於策略梯度的強化學習方法來解決這個優化問題，該方法將策略參數更新限制在信任區域內以確保穩定性。

IV. APPROACH

本節首先介紹強化學習框架的關鍵要素。接下來，我們用一個深神經網絡來描述避碰策略的結構細節。最後，我們闡述了用於優化策略的訓練協議。

A、強化學習設置

第三節定義的部分可觀測序貫決策問題可以表示爲一個部分可觀測馬爾可夫決策過程（POMDP），通過強化學習求解。形式上，POMDP可以描述爲6元組（S，a，P，R，Ω，O），其中S是狀態空間，a是動作空間，P是狀態轉移模型，R是報酬函數，Ω是觀測空間（O∈Ω），O是給定系統狀態的觀測概率分佈（O∼O（S））。在我們的公式中，每個機器人只能訪問從底層系統狀態採樣的觀測值。此外，由於每個機器人以完全分散的方式規劃其運動，因此不需要由機器人的運動學和動力學確定的多機器人狀態轉移模型P。下面我們將詳細介紹觀察空間、動作空間和獎勵函數。

1）觀察空間：如第三節所述，觀察時間由二維激光測距儀ot z的讀數、相對目標位置和機器人當前速度ot v組成，ot z包括180度激光掃描儀的最後三個連續幀的測量，該掃描儀的最大範圍爲4米，每次掃描提供512個距離值（即ot z∈R3×512）。實際上，掃描器安裝在機器人的前部，而不是中心（參見圖1中的左圖），以獲得大的未包含視圖。相對目標位置是以極座標（距離和角度）表示目標相對於機器人當前位置的二維矢量。觀測到的速度包括差動驅動機器人當前的平移和旋轉速度。通過減去平均值併除以標準差，利用整個培訓過程中彙總的統計數據，將觀察值標準化。

2）動作空間：作用空間是連續空間中的一組容許速度。差動機器人的動作包括平移和旋轉速度，即at=[vt，wt]。在本研究中，考慮到實際機器人的運動學和實際應用，我們設定了平移速度v∈（0.0,1.0）和旋轉速度w∈（1.0,1.0）的範圍。注意，不允許向後移動（即v<0.0），因爲激光測距儀無法覆蓋機器人的後部區域。

3）獎賞設計：我們的目標是避免導航過程中的碰撞，並最小化所有機器人的平均到達時間。獎勵功能旨在指導機器人團隊實現這一目標：

正在上傳…重新上傳取消

機器人i在時間步驟t時收到的獎勵r是gr、cr和wr三個項的總和。特別是，機器人達到其目標所獲得的獎勵正在上傳…重新上傳取消：

正在上傳…重新上傳取消

當機器人與環境中的其他機器人或障礙物碰撞時，會受到正在上傳…重新上傳取消的懲罰：

正在上傳…重新上傳取消

爲了鼓勵機器人平穩移動，引入了一個小懲罰正在上傳…重新上傳取消來懲罰大轉速：

正在上傳…重新上傳取消

在訓練過程中，我們設置rarritival=15，ωg=2.5，rcollision=-15和ωw=-0.1。

B、網絡結構

在給定輸入（觀測正在上傳…重新上傳取消）和輸出（動作正在上傳…重新上傳取消）的情況下，詳細闡述了正在上傳…重新上傳取消和正在上傳…重新上傳取消的策略網絡映射，設計了一個四隱層神經網絡作爲策略πθ的非線性函數逼近器。它的架構如圖3所示。我們利用前三個隱藏層有效地處理激光測量。第一個隱藏層在三個輸入掃描上卷積32個核大小爲5、步長爲2的一維濾波器，並應用ReLU非線性[20]。第二個隱藏層卷積32個一維過濾器，內核大小爲3，步幅爲2，然後是ReLU非線性。第三個隱藏層是具有256個整流單元的完全連接層。第三層的輸出與另外兩個輸入（ot和ot v）相連，然後饋入最後一個隱藏層，這是一個具有128個整流單元的完全連接層。輸出層是一個具有兩種不同激活的完全連接層：通過雙曲正切函數（tanh），使用一個sigmoid函數來約束平動速度vtin（0.0,1.0）的平均值和旋轉速度wtin（1.0,1.0）的平均值。

正在上傳…重新上傳取消

圖3：避碰神經網絡的結構。該網絡具有掃描測量正在上傳…重新上傳取消、相對目標位置正在上傳…重新上傳取消和當前速度正在上傳…重新上傳取消輸入，並輸出速度正在上傳…重新上傳取消。最後一個動作正在上傳…重新上傳取消是用分離的對數標準差向量正在上傳…重新上傳取消從轉存失敗重新上傳取消構造的高斯分佈中採樣。

總的來說，神經網絡將輸入觀測向量ott映射爲向量轉存失敗重新上傳取消。從高斯分佈轉存失敗重新上傳取消中採樣的最後動作轉存失敗重新上傳取消，其中轉存失敗重新上傳取消用作平均值，轉存失敗重新上傳取消表示日誌標準偏差，僅在訓練期間更新。

C. 多場景多階段訓練

1）訓練算法：即使深度強化學習算法已經成功地應用於移動機器人的運動規劃中，它們也主要集中在離散的動作空間[13]、[21]或小規模的問題[8]、[9]、[16]、[17]。在這裏，我們重點學習一種避免碰撞的策略，該策略能夠在有障礙物的複雜場景（如走廊和迷宮）中，對大量機器人執行穩健而有效的操作。我們將最近提出的魯棒策略梯度算法，近端策略優化（PPO）[22]-[24]擴展到我們的多機器人系統。我們的方法適應了集中學習、分散執行的模式。特別是，每個機器人在每個時間步都接收自己的觀測值o，並執行共享策略πθ產生的動作；該策略由所有機器人同時收集的經驗進行訓練。

如算法1（改編自[22]、[23]）中總結的，訓練過程通過並行執行策略和用採樣數據更新策略來在採樣軌跡之間進行交替。在數據收集過程中，每個機器人使用相同的策略來生成軌跡，直到它們收集到轉存失敗重新上傳取消以上的一批數據。然後利用採樣軌跡構造代換損失轉存失敗重新上傳取消，並在Kullback-Leiber（KL）散度約束下，用Adam優化器[25]對Eπ週期的代換損失進行優化。以狀態值函數轉存失敗重新上傳取消爲基線估計i處的優勢，並用採樣軌跡上參數爲φ的神經網絡逼近。Vφ的網絡結構與策略網絡πθ的網絡結構相同，只是它的最後一層只有一個具有線性激活的單元。我們構造了Vφ的平方誤差損失LV（φ），並用Adam優化器對其進行了優化。我們獨立地更新πθ和Vφ，並且它們的參數是不共享的，因爲我們發現在實際應用中使用兩個分離的網絡將獲得更好的結果。

由於團隊中的每個機器人都是一個獨立的數據採集員，因此這種並行PPO算法可以很容易地擴展到一個大型的多機器人系統中，該系統由100個機器人以分散的方式組成。分散執行不僅大大減少了樣本採集的時間，而且使算法適用於多種場景下的多機器人訓練。

2）訓練場景：爲了讓我們的機器人暴露在不同的環境中，我們使用場景移動機器人模擬器（如圖4所示）創建不同的場景，並同時移動所有機器人。在圖4中的場景1、2、3、5和6中（黑色實線是障礙物），我們首先從可用的工作區中選擇合理的開始和到達區域，然後在相應區域中隨機抽樣每個機器人的開始和目標位置。場景4中的機器人被隨機初始化成一個半徑不同的圓圈，它們的目標是通過穿過中心區域到達它們的對端位置。對於場景7，我們在每集開始時爲機器人和障礙物（以黑色顯示）生成隨機位置；並且機器人的目標位置也是隨機選擇的。這些豐富、複雜的訓練場景使機器人能夠探索其高維觀測空間，並有可能提高學習策略的質量和魯棒性。結合集中式學習、分散式執行機制，有效地優化了各種環境下的每次迭代衝突避免策略。

3）培訓階段：雖然在多個環境中進行的培訓在不同的測試用例中同時帶來了健壯的性能（見V-C節），但它使培訓過程更加困難。在課程學習範式[27]的啓發下，我們提出了一個兩階段的培訓過程，它加速了政策收斂到一個滿意的解決方案，並且獲得了比相同曆元數的白手起家的政策更高的回報（如圖5所示）。在第一階段，我們只訓練20個隨機場景（圖4中的場景7）的機器人，沒有任何障礙，這使得我們的機器人能夠快速學習相對簡單的避碰任務。一旦機器人達到可靠的性能，我們就停止第1階段並保存訓練策略。此策略將在階段2中繼續更新，機器人的數量增加到58個，他們在圖4所示的更豐富和更復雜的場景中接受訓練。

轉存失敗重新上傳取消

圖4：用於訓練碰撞避免策略的場景。所有機器人都被模擬成半徑相同的圓盤。障礙物顯示爲黑色。

V. 實驗和結果

翻譯：

在這一部分中，我們首先描述了訓練過程的超參數和計算複雜性。然後，在不同的模擬場景下，將我們的策略與其他方法進行了定量比較。最後，我們證明了所學習的策略在一些具有挑戰性和複雜性的環境中具有良好的泛化能力。

A、訓練結構與計算複雜度

我們的算法是在TensorFlow中實現的，並在場景模擬器中對帶有激光掃描儀的大型機器人組進行了仿真。我們在一臺帶有i7-7700 CPU和Nvidia GTX 1080 GPU的計算機上訓練多機器人避免碰撞的策略。離線訓練需要12個小時（算法1中約600次迭代）才能訓練出在所有場景中收斂到穩定性能的策略。表1總結了算法1中的超參數，特別是策略網絡的學習率lrθ在第一階段被設置爲5e-5，然後在第二階段訓練階段被降低爲2e-5。對於10個機器人的在線分散控制，策略網絡在CPU上計算新動作需要3ms，在GPU上計算新動作需要約1.3ms。

轉存失敗重新上傳取消

圖5：在訓練過程中，平均獎勵以牆時間表示。

B、各種情景的定量比較

1）性能度量：爲了在不同的測試用例中比較策略和其他方法的性能，我們使用以下性能指標。對於每個方法，每個測試用例都要評估50次重複。

表1：算法1中描述的訓練算法的超參數

轉存失敗重新上傳取消

•成功率是指在一定時間內，機器人在不發生碰撞的情況下達到目標的數量與機器人總數的比率。

•額外時間？tem測量所有機器人的平均行程時間與行程時間下限之間的差異（即，機器人以最大速度[7]、[8]直向目標的平均成本時間）。

•額外距離∏測量機器人的平均行進軌跡長度與機器人行進距離下限之間的差異（即機器人沿着最短路徑朝目標行進的平均行進距離）。

•平均速度v測量機器人團隊在導航過程中的平均速度。

請注意，在評估過程中，將對所有機器人的額外時間和額外距離進行測量，以消除由於代理數量的差異和與目標的距離不同而產生的影響。

2）循環場景：我們首先比較了我們的多場景多階段學習策略和NH-ORCA策略[19]，以及在不同機器人數量的循環場景中使用監督學習（SL策略，變量[10]，詳見下文）訓練的策略。圓圈場景與圖4所示的場景4相似，只是我們在圓圈上統一設置了機器人。我們使用來自[3]，[4]的開源NH-ORCA實現，並在模擬中共享所有機器人的地面真實位置和速度。在監督模式下學習的策略具有與我們的策略相同的體系結構（在第IV B節中描述），使用來自[10]，[11]的方法在大約800000個樣本上進行訓練。

與NH-ORCA策略相比，我們的學習策略在成功率、平均額外時間和旅行速度方面都有顯著提高。雖然在機器人數量超過15的情況下（表二第三行），我們學習的策略比NHORCA策略的行程稍長，但更大的速度（表二第四行）有助於我們的機器人更快地達到目標。實際上，稍微長一點的路徑是更高速度的副產品，因爲機器人在停在目標前需要更多的空間減速。

表二：針對不同機器人數量的圓形場景，評估不同方法的性能指標（平均值/標準差）。

轉存失敗重新上傳取消

3）隨機場景：隨機場景是評價多機器人避碰性能的常用場景。爲了測量我們的方法在隨機場景中的性能（如圖4中的第7個場景所示），我們首先創建5個不同的隨機場景，每個場景中有15個機器人。對於每個隨機場景，我們重複評估50次。結果如圖6所示，它將我們的最終政策與僅在第1階段（第IV-C.1節）和NHORCA政策中培訓的政策進行了比較。我們可以觀察到，使用深度強化學習訓練的兩種策略的成功率都高於NH-ORCA策略（圖6a）。還可以看出，使用學習策略的機器人（在階段1和階段2）能夠比NH-ORCA（圖6b）更快到達目標。雖然學習到的策略具有較長的軌跡長度（圖6c），但較高的平均速度（圖6d）和成功率表明，我們的策略使機器人能夠更好地預測其他機器人的運動。與上面的圓形場景類似，稍微長一點的路徑是由於機器人在到達目標前需要減速。此外，第一階段策略在隨機場景中的高性能部分是由於過度擬合造成的，因爲它是在類似的隨機場景中訓練的，而第二階段策略是在多個場景中訓練的。

轉存失敗重新上傳取消

（a）成功率 (b)耗時

轉存失敗重新上傳取消

（c）額外距離（d）平均速度

圖6：隨機場景下，爲我們學習的策略和NH-ORCA策略評估的性能指標。

4）小組場景：爲了評估機器人之間的合作，我們希望在更具挑戰性的場景中測試我們的訓練策略，例如小組交換、小組交叉和在走廊中移動的小組。在組交換場景中，我們導航兩組機器人（每組有6個機器人）朝相反方向移動以交換位置。對於羣組交叉場景，機器人被分成兩組，其路徑將在場景中心相交。我們通過測量50次試驗的平均額外時間，將我們的方法與NH-ORCA在這兩個病例上進行比較。從圖8可以看出，我們的策略在這兩種情況下的性能都比NH-ORCA好得多。較短的目標間隔時間表明，我們的政策已學會產生比基於反應的方法（NH-ORCA）更多的合作行爲。然後我們評估了走廊場景，兩組人員在有兩個障礙物的狹窄走廊內交換位置，如圖7a所示，只有第二階段策略才能完成這項具有挑戰性的任務（路徑如圖7b所示）。第一階段策略的失敗表明，在各種場景下進行聯合訓練，可以在不同的情況下獲得穩健的性能。NH-ORCA策略在這種情況下失敗，因爲它依賴於全球規劃者來指導機器人在複雜環境中導航。如第一節所述，agentlevel碰撞避免策略（如NH-ORCA）需要額外的管道（如指示障礙物的柵格地圖）來明確識別和處理靜態障礙物，而我們的方法（傳感器級策略）則從原始傳感器讀數隱式推斷障礙物，而無需任何額外處理。

轉存失敗重新上傳取消

（a）走廊場景（b）機器人軌跡

圖7：兩組機器人在有障礙物的走廊中移動。（a）顯示走廊方案。（b）顯示由我們的第二階段政策產生的軌跡。

轉存失敗重新上傳取消

圖8：我們的策略（階段1和階段2）和NH-ORCA策略在兩個組場景中的耗時情況。

轉存失敗重新上傳取消

（a）異構機器人（b）非合作機器人

圖9：在異構機器人團隊（a）中，只有兩個圓盤形機器人用於訓練。（b）顯示6個機器人在兩個非合作機器人（矩形）周圍移動，這兩個機器人以直線快速移動。

轉存失敗重新上傳取消

圖10：模擬100個機器人試圖通過圓心移動到相反的位置。

C、概括

翻譯：

多場景訓練的一個顯著特點是學習策略（第二階段策略）具有良好的泛化能力。如第三節所述，我們的策略是在一個機器人團隊中進行訓練，所有機器人共享相同的碰撞避免策略。在整個訓練過程中不引入非合作機器人。有趣的是，圖9b所示的結果表明，所學習的策略可以很好地直接推廣以避免非合作代理（即圖9b中的矩形機器人以固定速度直線行進）。回想一下，我們的策略是在具有相同形狀和固定半徑的機器人上進行訓練。圖9a顯示，學習的策略還可以有效地導航由不同大小和形狀的機器人組成的異構機器人組，以在不發生任何碰撞的情況下實現其目標。爲了測試我們的方法在大規模場景中的性能，我們模擬了100個機器人在一個大圓圈中移動到對端位置，如圖10所示。這表明我們所學習的策略可以直接推廣到大規模環境中，而無需任何微調。

VI 結論

翻譯：

本文提出了一個多場景多階段訓練框架，利用穩健的策略梯度算法來優化完全分散的傳感器級碰撞避免策略。所學習的策略在廣泛評估ART NH-ORCA策略的狀態時，在成功率、避免碰撞性能和泛化能力方面顯示了一些優勢。我們的工作可以作爲減少集中式和分散式方法之間導航性能差距的第一步，儘管我們充分意識到，當調度多個機器人在障礙物密集的複雜環境中導航時，以局部避免碰撞爲重點的學習策略無法取代全局路徑規劃器。

《Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning》譯文

解決keras模型保存問題（避免系統崩潰，模型訓練無效），並且可以解決訓練越來越慢的問題

《Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning》譯文

GYM環境解讀

python list 取部分值

MacOS搭建openai環境

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結