[論文筆記]An Autonomous UAV Navigation System for Unknown Flight Environment

未知環境下的無人機導航系統導讀

  • 摘要
    Name:基於數據融合的多傳感器自動導航系統(MDFAN)
    Step:

  • 1.減少先驗知識:將導航問題化爲決策路徑規劃問題

  • 2.提取當前有效的環境信息並挖掘當前環境信息與UAV的當前狀態的固有內在關係

  • 3.提出一個強化學習的方法:這個方法能夠解決未知環境的不確定情形所產生的問題

  • 介紹

  • 1.傳統方法非常起來對環境的先驗知識,且對於噪聲高的數據精度低…etc

  • 2.面臨的挑戰:

  • 在建模過程中,模型的建立依賴於特定的環境

  • 無人機可能被派遣到不可預見的情形下執行任務

  • 3.MDFAN功能:碰撞避免、路徑規劃、數據融合
    做法:

  • 通過強化學習來實現模型對飛行環境的依賴(不是利用特定環境的信息, 而是利用無人機的飛行狀態)

  • 從複雜多樣的數據中提取有效信息(卷積神經網絡) 並 在當前環境與 無人機當前狀態(用灰度圖表示)之間建立關聯

  • 從無人機狀態提取特徵 並 將這些特徵從可見狀態泛化到不可見狀態

  • 系統架構
    -組件

  • 1.核心組件在訓練過程中將傳感器數據發送到服務器

  • 2.機載計算機實時地從傳感器接受數據並整合數據評估無人機狀態

  • 3.將無人機狀態作爲參數進行深度強化學習,進而做出行爲決策
    -系統架構

  • 交互層:
    硬件:包括定位傳感器、雷達傳感器、圖像傳感器、動作傳感器
    軟件:感知算法探測障礙物,定位算法計算無人機與目標物的距離

  • 訓練層:
    目的:在仿真環境中訓練路徑規劃模型

  • 1.處理獎勵數據是從無人機和仿真環境之間的交互中獲得,
    然後將這些數據喂進神經網絡,進而找起點到終點的最佳路徑

  • 2.飛行決策模型是在仿真環境中建立的

  • 應用層:

  • 1.無人機起初只知道未知環境裏的起點和終點

  • 2.機載傳感器收集位置信息、超聲波信息、深度圖像、無人機運動信息

  • 規劃層:

  • 1.與應用層緊密相連

  • 2.機載計算機將多個傳感器收集的數據融合成一個可以表示無人機狀態的數據

此後,在應用層和規劃層的交互處理中,無人機會到達目的地

  • 方法
    -飛行決策制定

  • 1.飛行決策制定:將路徑規劃問題轉化爲決策問題

  • 2.在未知環境下,MDFAN的目標不是利用特定環境的信息,而是利用無人機的飛行
    狀態

  • 3.在不同環境的飛行處理能夠方程化爲MDP,MDP可在飛行路徑和無人機狀態建立
    聯繫

  • 4.飛行路徑決策問題可描述爲智能體(agent)—環境交互問題,智能體(agent)通過從與 環境交互中積累經驗進而學習規則

  • 5.獎勵函數:獎勵函數在加強學習中非常重要,它反映了我們需要智能體(agent)完
    成的事情。包括:
    - 運動方向獎勵:

  • 爲了能夠到達目的地,我們需要獲取目的地方向的角度

  • 在每一個時間步之後,如果智能體(agent)前進方向與目的地方向相一致, 那麼智能體就會得到一個持續的獎勵或懲罰lamda

  • 距離獎勵:

  • 與無人機的位置及目的地密切相關

  • 在每一個時間步之後,如果智能體(agent)離目的地越近,智能體(agent)
    會得到越多的減少距離的獎勵,如果二者的距離是不斷地增大,智能體
    (agent)會在達到獎勵最低值

  • 障礙物感知獎勵:

  • 如果智能體(agent)碰到障礙物,飛行結束且智能體(agent)會受到重重
    的懲罰

  • 時間獎勵:

  • 我們希望智能體(agent)能夠儘快地到達目的地,所以每個時間步智能
    體(agent)都會受到持續的懲罰

    • 多傳感器數據融合
      無人機的兩個狀態:本地狀態、全球狀態
  • 本地狀態:考慮碰撞避免,用深度圖像表示

  • 全球狀態:需要關注於無人機目標的位置,用方向角度表示,再將其編碼成圖片, 然後我們融合碰撞信息和目的地信息成一張圖片。如此,無人機的狀 態就與環境是獨立的

  • 卷積神經網絡被應用來提取圖片特徵

廣義(general)神經網絡方法是用分類或者回歸的,而我們的方法是根據各種傳感器
數據來對每一步動作作決策

  • 未知環境的路徑規劃
    使用傳統的強化學習方法進行數據處理,並用Q-table存儲Q-value,Q-value通過近
    似方程來表示。這樣的好處是既消除了Q-table太大而不能存儲的限制,又能讓我們通
    過特徵提取將可見狀態推廣到不可見狀態

  • 實驗

  • 1.實驗描述:柱子障礙物是隨機分配的,目的是使得模擬更具有現實性

  • 2.訓練:

  • 無人機狀態用灰度圖表示,灰度圖包括圖像深度和目的地位置

  • 無人機以固定的速度在固定的高度飛行。所以動作域是比較小的,它包括直飛、
    右轉、左轉

  • 訓練結果:累積獎勵的整體趨勢是上升的

  • 3.評估:
    仿真環境:

  • 訓練之後,我們通過100個數據(episodes)來評估學習策略

  • 在評估過程中,無人機仍然在飛行,而它的飛行起點跟終點都是隨機的

  • 爲了方便比較獎勵,不同場景下的起點和終點的距離是固定的

  • 評估結果:

  • 30%的episodes是失敗的;就成功的episodes而言,紅線代表它們的平均
    獎勵

  • 比較兩種方式:紅線代表我們方法的平均獎勵,綠線代表ACO方法。我們
    的方法比ACO方法稍高,我們認爲有兩個原因。一是是因爲無人機遭遇更
    多不可見的情形,而在這些情形中無人機尋找更好的路徑去到達目的地,所
    以在測試集中我們方法的獎勵比ACO方法的獎勵要高;二是ACO方法是
    基於網格的,所以路徑的光滑度依賴於網格的大小,而我們的方法是與飛行
    決策相關,這是更爲合理的

  • 總的來說,在仿真環境下,我們的方法效果還是不錯的

現實環境:無人機最開始僅僅知道自己的位置及目的地位置,其餘都不知道

  • 1.現實環境的挑戰是複雜多樣且不穩定的,包括:轉彎、改變光亮度及玻璃牆

  • 2.我們實驗的主要目的是評估我們系統在現實環境下的泛化性能

  • 評估結果:

  • 通過100個數據來評估下學習策略,其中30%的數據是失敗的,而成功的 數據的獎勵大概爲140,而失敗數據的獎勵少於-50

  • 結果顯示,我們的方法的飛行軌跡較ACO方法更光滑,因爲ACO方法依
    賴於網格地圖,網格越小,飛行軌跡越光滑,但是這樣會使得計算負載倍
    速增加

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章