【論文閱讀】【綜述】A survey of deep learning techniques for autonomous driving

由於本片論文不涉及技術,所以就翻譯一下,看看公司的人是怎麼理解DNN在自動駕駛中的應用的。

A survey of deep learning techniques for autonomous driving

0、Abstract

過去十年見證了自動駕駛汽車技術的日新月異的發展,這主要得益於深度學習和人工智能(AI)領域的進步。本文的目的是調查自動駕駛中使用的最新深度學習技術。我們首先介紹基於AI的自動駕駛架構,卷積和遞歸神經網絡,以及深度強化學習範例。這些方法爲所調查的駕駛場景感知,路徑規劃,行爲仲裁和運動控制算法奠定了基礎。我們研究了使用深度學習方法構建的每個模塊的模塊化感知計劃行動管道以及將傳感信息直接映射到轉向命令的End2End系統,此外,我們還解決了在設計用於自動駕駛的AI架構時遇到的挑戰,例如其安全性,訓練數據和計算硬件。本次調查中進行的比較有助於深入瞭解深度學習和自動駕駛AI方法的優勢和侷限性,並協助設計選擇。

1、Introduction

在過去的十年中,深度學習和人工智慧(AI)成爲計算機視覺(Krizhevsky,Sutskever和&Hinton,2012),機器人技術(Andrychowicz等人,2018)和自然語言取得許多突破的主要技術。處理(NLP; Goldberg,2017)。它們也對當今在學術界和工業界看到的自動駕駛革命產生了重大影響。無人駕駛汽車(AVs)和自動駕駛汽車開始從實驗室開發和測試條件遷移到在公共道路上駕駛。將它們部署在我們的環境景觀中,可以減少交通事故和交通擁堵,並改善我們在擁擠的城市中的出行能力。“自動駕駛”的標題似乎是不言而喻的,但實際上用於定義自動駕駛的汽車軟件(SAE)級別有五個安全性。SAE J3016標準(SAE委員會,2014年)引入了從0到5的等級來對車輛自動化進行評級。較低的SAE等級具有基本的駕駛員輔助功能,而較高的SAE等級則朝着不需要任何人機交互的車輛發展。5級類別的汽車不需要人工輸入,通常甚至都沒有方向盤或腳踏板。

儘管大多數駕駛場景可以通過經典的感知,路徑規劃和運動控制方法來相對簡單地解決,但其餘未解決的場景是傳統方法失敗的極端情況。

恩斯特·迪克曼斯(Dickmanns&Graefe,1988)在1980年代開發了第一批自動駕駛汽車。這爲例如PROMETHEUS,旨在開發功能齊全的自動駕駛汽車的研究項目鋪平了道路。1994年,無人駕駛和自動駕駛汽車(VaMP)成功行駛了1,600公里,其中95%是自動駕駛。同樣,1995年,卡內基·梅隆導航實驗室(CMU NAVLAB)演示了在6,000公里處自動駕駛的情況,其中98%是自動駕駛。自動駕駛的另一個重要里程碑是2004年和2005年美國國防高級研究計劃局(DARPA)的大挑戰,以及這是2007年DARPA城市挑戰賽的目標。無人駕駛汽車的目標是在沒有人工干預的情況下,儘可能快地在越野道路上行駛。2004年,這15輛車中沒有一輛完成比賽。2005年比賽的冠軍斯坦利(Stanley)利用MachineLearning技術在非結構化環境中導航。這是無人駕駛汽車開發的轉折點,承認機器學習和人工智能是自動駕駛的核心組成部分。該轉折點在本調查報告中也很明顯,因爲大部分被調查的工作都定於2005年之後。

在這項調查中,我們回顧了自動駕駛中使用的不同AI和深度學習技術,並提供了適用於自動駕駛汽車的最新深度學習和AI方法的調查。我們還將專門討論安全方面的內容,培訓數據源的挑戰以及所需的計算硬件。

2、在自駕車中使用基於深度學習的決策架構

自動駕駛汽車是自主決策系統,可處理來自不同車載系統的觀察流,例如相機,雷達,光檢測和測距(LiDAR),超聲傳感器,全球定位系統(GPS)單位和/或慣性傳感器。這些觀察結果被汽車的計算機用來做出駕駛決策。圖1顯示了AI動力自動駕駛汽車的基本框圖。駕駛決策可以通過模塊化的感知計劃行動管線(圖1a)或End2End學習方式(圖1b)進行計算,其中感官信息直接映射到控制輸出。可以基於AI和深度學習方法或使用經典的非學習方法來設計模塊化管道的組件。可以對基於學習和非學習的組件進行各種排列(例如,基於深度學習的對象檢測器爲經典的A-star路徑規劃算法提供輸入)。安全監控器旨在確保每個模塊的安全。

 親親親親親羣羣
圖1 基於深度學習的自動駕駛汽車。該體系結構既可以實現爲順序感知計劃行動管線(a),也可以實現爲End2End系統(b)。在順序管道的情況下,可以使用AI和深度學習方法或基於經典的非學習方法來設計組件。End2End學習系統主要基於深度學習方法。通常設計安全監視器來確保每個模塊的安全。人工智能,人工智能[彩色圖形可以在wileyonlinelibrary.com上查看] 。

圖1a中的模塊化管道被分層分解爲四個組件,可以使用深度學習和AI方法或經典方法進行設計。這些組件是:

  • 感知和定位
  • 高級路徑規劃
  • 行爲仲裁或低級路徑規劃
  • 運動控制器。

在這四個高級組件的基礎上,我們將描述用於自動駕駛系統的方法的相關深度學習論文歸類在一起。除了上述算法之外,我們還對相關文章進行了分組,涵蓋了在設計自動駕駛汽車深度學習模塊時遇到的安全性,數據源和硬件方面的問題。

給定一條通過道路網絡規劃的路線,自動駕駛汽車的首要任務是在周圍環境中瞭解和定位自身。在這種表示的基礎上,計劃了一條連續的道路,並由行爲仲裁系統確定了汽車的未來動作。最終,運動控制系統反應性地糾正了在執行計劃的運動中產生的錯誤。可以在Paden,Cáp,Yong,Yershov和Frazzoli(2016)中找到關於這四個組成部分的經典非AI設計方法的概述。

隨後將介紹自動駕駛中使用的深度學習和AI技術以及調查用於設計上述分層決策過程的不同方法。此外,我們提供了End2End學習系統的概述,該系統用於將分層過程編碼爲單個深度學習體系結構,該體系結構將感官觀察直接映射到控制輸出

3、 深度學習技術概述

這一章節都是講DNN的原理的,引用的文獻也都很老,與Autonomous Driving沒什麼關係

3.1、CNN

3.2、RNN

3.3、DRL

代理無法直接訪問模擬的環境狀態。取而代之的是,傳感器讀數提供了有關環境真實狀態的線索。要解碼真實的環境狀態,僅映射傳感器讀數的單個快照是不夠的。時間信息也應該包含在網絡的輸入中,因爲環境的狀態會隨着時間而改變。可以在Sallab,Abdou,Perot和Yogamani(2017a)中找到在模擬器中應用於AV的DQN示例.DQN已開發爲在離散的動作空間中運行。在自動駕駛汽車的情況下,離散動作將轉換爲離散命令,例如左轉,右轉,加速或破壞。上面描述的DQN方法已經基於策略梯度估計擴展到了連續動作空間(Lillicrap et al。,2016)。Lillicrap等人的方法。(2016年)描述了一種無模型的行爲批評算法,能夠直接從原始像素輸入中學習不同的連續控制任務。S. Gu,Lillicrap,Sutskever和Levine(2016)提出了一種基於模型的連續Q學習解決方案。

儘管可以使用DRL進行連續控制,但自動駕駛中最常見的DRL策略是基於離散控制(Jaritz,Charette,Toromanoff,Perot和Nashashibi,2018年)。由於agent必須探索其環境,因此這裏面臨的主要挑戰是訓練,通常是從碰撞中學習。僅在模擬數據上進行訓練的此類系統傾向於學習駕駛環境的偏向版本。這裏的解決方案是使用模仿學習(IL)方法,例如反強化學習(IRL, Wulfmeier,Wang和Posner,2016年),可以從人類駕駛示範中學習,而無需探索不安全的動作。

4、深入學習環境感知和定位

無人駕駛技術使車輛能夠感知環境並做出響應,從而實現自動駕駛。接下來,我們將綜合考慮基於攝像頭與LiDAR的環境感知,來概述用於駕駛場景理解的最佳方法。我們調查了自動駕駛中的對象檢測和識別,語義分割和定位以及使用佔用圖的場景理解。有關自動視覺和環境感知的調查可以在Zhu,Yuen,Mihaylova和Leung(2017)和Janai,Güney,Behl中找到。和蓋格(2017)。

4.1、傳感硬件:相機與激光雷達的辯論

深度學習方法特別適用於檢測和識別分別從攝像機和LiDAR設備獲取的二維(2D)圖像和3D點雲中的對象。

在自動駕駛社區中,3D感知主要基於LiDAR傳感器,該傳感器以3D點雲的形式提供周圍環境的直接3D表示。LiDAR的性能是根據視野,範圍,分辨率和旋轉/幀速率來衡量的。3D傳感器(例如Velodyne®)通常具有360度的水平視場。爲了高速行駛,AV至少需要200米的射程,從而使車輛能夠及時響應路況的變化。3D對象檢測精度取決於傳感器的分辨率,最先進的LiDAR能夠提供3cm的精度。

最近的辯論引發了相機與LiDAR傳感技術之間的爭論。領先於自動駕駛技術發展的兩家公司Tesla®和Waymo®(O’Kane,2018)在其主要感知傳感器以及目標SAE水平方面有不同的理念(SAE委員會,2014)。Waymo®直接將其車輛構建爲5級系統,目前自動駕駛的里程超過了1000萬英里。2另一方面,Tesla®將其AutoPilot部署爲高級駕駛員輔助系統(ADAS)組件,客戶可以在方便時打開或關閉它。Tesla®的優勢在於其龐大的培訓數據庫中,該數據庫包含超過10億英里的行駛里程。3該數據庫是通過從客戶擁有的汽車中收集數據而獲得的。

兩家公司的主要傳感技術均不同。Tesla®嘗試利用其攝像頭系統,而Waymo則更多地依賴於LiDAR傳感器。傳感方法各有利弊。激光雷達即使在黑暗中也具有高分辨率和精確的感知能力,但易受惡劣天氣條件的影響(例如,大雨; Hasirlioglu,Kamann,Doric和&Brandmeier,2016年)並且涉及運動部件。相比之下,相機具有成本效益,但缺乏深度感知且無法在黑暗中工作。如果天氣條件阻礙了視野,則相機對惡劣天氣也很敏感。

康奈爾大學的研究人員試圖從視覺深度估計中複製LiDAR類點雲(Wang等人,2019)。相對於立體攝像機的左傳感器座標,將估計的深度圖重新投影到3D空間中。產生的點雲稱爲僞LiDAR。僞LiDAR數據可以進一步饋送到3D深度學習處理方法,例如PointNet(Qi,Su,Mo,&Guibas,2017)或聚合視圖對象檢測(AVOD; Ku,Mozifian,Lee,Harakeh,&Waslander,2018)。基於圖像的3D估計的成功對於自動駕駛汽車的大規模部署至關重要,因爲LiDAR無疑是自動駕駛汽車中最昂貴的硬件組件之一。

除了這些傳感技術,雷達和超聲波傳感器還用於增強感知能力。例如,除了三個LiDAR傳感器外,Waymo還使用了五個雷達和八個攝像頭,而Tesla®汽車則配備了八個攝像頭,12個超聲波傳感器和一個前向雷達。

4.2、駕駛場景理解

自動駕駛汽車應能夠檢測交通參與者和可駕駛區域,尤其是在可能出現各種物體外觀和遮擋物的城市區域。基於深度學習的感知(尤其是CNN)已成爲對象檢測和識別的事實上的標準,在競爭中獲得了顯着的結果,例如ImageNet大規模視覺識別挑戰(Russakovsky et al。,2015)。
在這裏插入圖片描述
圖3 場景感知結果的示例。(a)圖像中的2D對象檢測;(b)應用於LiDAR數據的3D邊界框檢測器;以及(c)圖像上的語義分割結果。二維,二維;3D,三維[可在wileyonlinelibrary.com上查看彩色圖形]

使用不同的神經網絡架構來檢測作爲2D感興趣區域的對象(Dai,Li,He和Sun,2016年; Girshick,2015年; Iandola等人,2016年; Law&Deng,2018年; Redmon,Divvala 吉爾希克(Girshick)和法哈迪(Farhadi),2016年;S. Zhang,Wen,Bian,Lei,&Li,2017)圖像中的像素方向分割區域(Badrinarayanan,Kendall,&Cipolla,2017; He,Gkioxari,Dollar,&Girshick,2017; Treml等,2016; H.Zhao,Qi,Shen,Shi,&Jia,2018),LiDAR點雲中的3D邊界框(Luo,Yang,&Urtasun,2018; Qi et al。,2017; Zhou&Tuzel,2018),以及其中的對象的3D表示相機-LiDAR組合數據(X.Chen,Ma,Wan,Li,&Xia,2017; Ku等,2018; Qi,Liu,Wu,Su,&Guibas,2018)。場景感知結果的示例在圖3中進行了說明。圖像數據信息更豐富,更適合於對象識別任務。但是,由於深度信息在成像場景投影到成像傳感器上時會丟失,因此必須估計檢測到的對象的真實3D位置。

4.2.1、邊界盒狀物體檢測器

用於圖像中2D對象檢測的最受歡迎的體系結構是單級和雙級檢測器。流行的單級檢測器是“ You Only Look Once”(Yolo; Redmon等,2016; Redmon&Farhadi,2017、2018),單發多盒檢測器(SSD; W。Liu等,2016),CornerNet(法律)&Deng,2018)和RefineNet(S. Zhang et al。,2017)。雙級檢測器,例如具有CNN(R-CNN)的區域(Girshick,Donahue,Darrell和Malik,2014),Faster-RCNN(Ren,He,Girshick和Sun,2017)或基於區域的全卷積網絡(R-FCN; Dai et al。,2016),將物體檢測過程分爲兩部分:感興趣區域候選提案和邊界框分類。通常,單級檢測器不能提供與雙級檢測器相同的性能,但是速度要快得多。如果車載計算資源稀缺,則可以使用諸如SqueezeNet的檢測器(Iandola等人,2016或(J.(Li,Peng,&Chang,2018),它們經過優化可在嵌入式硬件上運行,這些檢測器通常具有較小的神經網絡架構,從而可以減少操作次數來檢測物體,但以檢測精度爲代價。上述對象檢測器基於Pascal視覺對象類別(VOC)2012數據集及其測得的平均平均精度(mAP)(聯合與交叉點(IoU)值分別等於50和75)給出在圖4中。

在這裏插入圖片描述
圖4 對象檢測和識別性能比較。評估已在Pascal VOC 2012基準數據庫上進行。右邊的前四種方法代表一級檢測器,其餘的六種是二級檢測器。由於它們的複雜性增加,因此對於雙級檢測器,運行時性能以每秒幀數(FPS)較低。IoU,聯合的交集;mAP,平均平均精度;SSD,單發多盒檢測器;VOC,可視對象類[可以在wileyonlinelibrary.com上查看顏色圖]

許多出版物展示了對原始3D感測數據以及視頻和LiDAR組合信息的目標檢測.PointNet(Qi等人,2017)和VoxelNet(Zhou&Tuzel,2018)旨在僅從3D數據中檢測目標,提供還有對象的3D位置。但是,僅點雲並不包含圖像中可用的豐富視覺信息。爲了克服這個問題,使用了組合的攝像頭-LiDAR架構,例如FrustumPointNet(Qi等人,2018),Multiview 3D網絡(MV3D; X.Chenet等人,2017)或RoarNet(Shin,Kwon和Tomizuka,2018年)在自動駕駛汽車的感官套件中使用LiDAR的主要缺點主要是其成本.5A解決方案將使用神經網絡架構,例如AVOD(Ku等人,2018),該架構僅利用LiDAR數據。用於訓練,而在訓練和部署過程中使用圖像。在部署階段,AVOD能夠僅從圖像數據中預測對象的3D邊界框。在這樣的系統中,僅LiDAR傳感器僅用於培訓數據採集,就像今天用於收集道路數據導航地圖的汽車一樣。

4.2.2、語義和實例分割

駕駛場景理解也可以使用語義分割來實現,語義分割表示圖像中每個像素的分類標記。在自動駕駛環境中,可以用代表可行駛區域,行人,交通參與者,建築物等的分類標籤標記像素。它是高級場景之一,可幫助您全面瞭解場景,並在自動駕駛,室內導航或虛擬現實和增強現實等應用中使用。

語義分割網絡,例如SegNet(Badrinarayananet等,2017),ICNet(H.Zhao等,2018),ENet(Paszke,Chaurasia,Kim和Culurciello,2016),AdapNet(Valada,Vertens,Dhall和&Burgard(2017)或Mask RCNN(He et al。,2017)主要是具有像素分類層的編碼器-解碼器體系結構。這些體系結構是基於AlexNet(Krizhevsky,Sutskever和Hinton,2012),VGG-16(Simonyan&Zisserman,2014),GoogLeNet(Szegedy et al。,2015)或ResNet(He,Zhang,Ren,&Sun,2016)。

與邊界框檢測器一樣,已努力改善這些系統在嵌入式目標上的計算時間。InTreml等。(2016)和Paszke等人。(2016),作者提出了一種方法來加速數據處理和嵌入式設備上的自動駕駛推理。兩種架構都是光網絡,可提供與SegNet相似的結果,並降低了計算成本。在AdapNet中解決了語義分割的魯棒性目標以進行優化(Valada等人,2017)。該模型能夠根據場景條件自適應學習專家網絡的特徵,從而在各種環境下進行穩健的分割,並使用MaskRCNN等架構獲得結合的邊界框對象檢測器和語義分割結果(He et al。,2017)。。該方法通過添加一個與現有分支邊界框識別並行的預測對象掩碼的分支,將Faster-RCNN的有效性擴展到實例分割。圖5顯示了基於CityScapes數據集在四個關鍵語義分段網絡上執行的測試結果。每類聯合的平均交集(mIoU)指的是多類細分,其中每個像素被標記爲屬於特定對象類,而每類mIoU則指前景(對象)-背景(非對象)分割。輸入樣本的大小爲×480 px 320 px

在這裏插入圖片描述
圖5 在Cityscapes數據集上進行語義分割性能比較(Cityscapes,2018)。輸入樣本是駕駛場景的×480 px 320 px圖像。FPS,每秒幀數;mIoU,平均交叉點重疊[可以在atwileyonlinelibrary.com查看顏色圖

4.2.3、定位

定位算法旨在在AV導航時計算其姿態(位置和方向)。儘管這可以使用GPS等系統實現,我們將重點研究基於視覺的本地化的深度學習技術。視覺的本地化,也稱爲視覺測距法(VO),通常是通過匹配連續視頻幀中的關鍵點地標來確定的。在給定當前幀的情況下,這些關鍵點用作透視圖n點映射算法的輸入,用於計算車輛相對於前一幀的姿態。深度學習可通過直接影響關鍵點檢測器的精度來提高VO的準確性。在Barnes,Maddern,Pascoe和Posner(2018)中,已經對一個深度神經網絡進行了訓練,以學習單眼VO中的關鍵點干擾因素。所謂的“學習型神經網絡掩碼”充當關鍵點離羣值的拒絕方案,這可能會降低車輛定位的準確性。環境的結構可以通過相機姿勢的計算來增量映射。這些方法屬於同時定位和映射(SLAM)領域。對於經典SLAM技術的調查,我們向讀者介紹了Bresson,Alsayed,Yu和Glaser(2017).PoseNet(Kendall,Grimes,&Cipolla,2015),VLocNet ++(Radwan,Valada和Burgard,2018),或Walch等人引入的方法。(2017),Melekhov,Ylioinas,Kannala和Rahtu(2017),Laskar,Melekhov,Kalia和Kannala(2017),Brachmann和Rother(2018)或Sarlin,Debraine,Dymczyk,Siegwart和Cadena(2018),正在使用圖像數據以End2End方式估計相機的3D姿勢。場景語義可以與估計的姿勢一起導出(Radwan等人,2018).LiDAR強度圖也適合於學習自動駕駛汽車的實時,校準不可知的本地化(Barsan,Wang,Pokrovsky和Urtasun,2018年)。。該方法使用深度神經網絡從LiDARsweeps和強度圖構建學習的駕駛場景表示。車輛的定位是通過卷積匹配獲得的。在廷契夫(Tinchev),佩納特·桑切斯(Penate-Sanchez)和法倫(Fallon)(2019)中,使用激光掃描和深度神經網絡來學習用於在城市和自然環境中進行本地化的描述符。

4.3、使用occupancy maps的感知

佔用圖(也稱爲OG)是環境的表示,該環境將駕駛空間劃分爲一組單元並計算每個單元的佔用概率。OGrepresentation在機器人技術中很受歡迎(Garcia-Favrot和Parent,2009; Thrun,Burgard和&Fox,2005),成爲自動駕駛汽車的合適解決方案。一對OG數據樣本如圖6所示
在這裏插入圖片描述
圖6 佔用網格(OG)的示例。圖像顯示了駕駛環境及其各自的OG的快照(Marina等人,2019)[顏色圖可在wileyonlinelibrary.com上查看] 10 | GRIGORESCUET AL。

深度學習可用於佔用圖的環境中,用於動態物體的檢測和跟蹤(Ondruska,Dequaire,Wang和Posner,2016),圍繞車輛的佔用圖的概率估計(Hoermann,Bach和Dietmayer,2017年; Ramos,Gehrig),Pinggera,Franke和Rother,2016年),或用於得出駕駛場景上下文(Marina等人,2019年; Seeger,Müller和&Schwarz,2016年)。在後一種情況下,OG是通過隨時間累積數據來構造的,而深度神經網絡用於將環境標記爲駕駛環境類別,例如高速公路駕駛,停車區或城市內駕駛。

佔用圖表示車載虛擬環境,以一種更適合路徑規劃和運動控制的形式集成了感知信息。深度學習在OG的估計中起着重要作用,因爲用於填充網格單元的信息是從使用場景感知方法處理圖像和LiDAR數據中推斷出來的,如本章所述。

5、深度學習的路徑規劃和行爲仲裁

自動駕駛汽車在兩點之間找到路線的能力,即起始位置和所需位置,代表了路徑規劃。根據路徑規劃過程,無人駕駛汽車應考慮周圍環境中存在的所有可能障礙物,並計算出無碰撞路線的軌跡。正如Shalev‐Shwartz,Shammah和Shashua(2016)所述,無人駕駛是一種多主體環境,在超車,讓路,合併,左轉和右轉時,當車輛在非結構化城市中行駛時,宿主車輛必須與其他道路使用者應用複雜的談判技巧巷道。文學方面的發現指出了一項不平凡的政策,應該在駕駛中確保安全。考慮到應該避免的意外事件的獎勵函數(̄)=-Rsr和其餘軌跡的(̄)∈[-] Rs1,1,目標是學會平穩而安全地執行困難的操縱。

自動駕駛汽車的最佳路徑規劃這一新興主題應以較高的計算速度運行,以在滿足特定優化標準的同時獲得較短的反應時間。彭德爾頓等人的調查。(2017)提供了汽車領域路徑規劃的一般概述。它介紹了路徑規劃的分類法方面,即任務規劃器,行爲規劃器和運動規劃器。然而,彭德爾頓等。(2017)沒有包含對深度學習技術的評論,儘管最新的文獻顯示對使用深度學習技術進行路徑規劃和行爲仲裁的興趣有所增加。接下來,我們討論路徑規劃中兩個最具代表性的深度學習範例,即IL(Grigorescu,Trasnea,Marina,Vasilcoi和Cocias,2019; Rehder,Quehl和&Stiller,2017; Sun,Peng,Zhan和Tomizuka,2018)和DRL-基礎計劃(Paxton,Raman,Hager和Kobilarov,2017; L.Yu,Shao,Wei和Zhou,2018)。

IL的目標是(Grigorescu等,2019; Rehder等,2017; Sunet等,2018),目的是從記錄的駕駛經驗中瞭解人類駕駛員的行爲(Schwarting,Alonso-Mora和Rus,2018)。該策略暗示了人類示範的車輛教學過程。因此,作者聘用CNN來從模仿中學習計劃。例如,NeuroTrajectory(Grigorescu et al。,2019)是一種感知規劃的深度神經網絡,可在有限的預測範圍內學習自我車輛的理想狀態軌跡。ILcan也被視爲IRL問題,其目標是向人類駕駛員學習其功能(T. Gu,Dolan和Lee,2016; Wulfmeier等,2016)。此類方法使用真實的駕駛員行爲來學習獎勵功能並生成類似於人的駕駛軌跡。

路徑規劃的DRL主要是在模擬器中學習駕駛軌跡(Panov,Yakovlev和Suvorov,2018年; Paxton等人,2017年; Shalev‐Shwartz等人,2016年; L.Yu等人,2018年)。該模型基於傳輸模型被抽象並轉換爲虛擬環境。在Shalev‐Shwartzet等人中。(2016年)指出,目標函數不能確保函數安全性而不會引起嚴重的方差問題。針對此問題的建議解決方案是構建由可學習部分和不可學習部分組成的策略功能。可學習的策略使獎勵功能最大化(包括舒適性,安全性,超車機會等)。同時,不可學習的政策遵循功能安全性的嚴格限制,同時保持可接受的舒適度。

IL和DRL在路徑規劃中都有優點和缺點。IL的優點是可以使用從現實世界收集的數據進行訓練。不過,這些數據很少出現在緊急情況下(例如,駛離車道,發生車禍等),使得訓練有素的網絡在面對看不見的數據時的響應不確定。另一方面,儘管DRL系統能夠在模擬世界中探索不同的駕駛情況,但是當移植到現實世界中時,這些模型往往會產生偏差。

6、基於運動控制器的自動駕駛汽車

運動控制器負責計算車輛的縱向和橫向轉向命令。學習算法既可以用作學習控制器的一部分,也可以用作圖1a的運動控制模塊中的一部分,也可以用作完整的End2End控制系統,將傳感數據直接映射到轉向命令,如圖1b所示

6.1、學習的控制器

傳統控制器利用由固定參數組成的先驗模型。當機器人或其他自治系統用於複雜環境(例如駕駛)時,傳統的控制器無法預見系統必須應對的所有可能情況。與固定參數的控制器不同,學習型控制器會利用訓練信息來隨着時間推移學習其模型。隨着每一批收集的訓練數據,真實系統模型的逼近度將變得更加準確,從而實現模型的靈活性,一致的不確定性估計以及可重複影響和干擾的預期不能在部署前建模(Ostafew,Collier,Schoellig和Barfoot,2015年)。考慮非線性狀態空間系統

在以前的工作中,已經基於簡單的函數逼近器引入了學習控制器,例如高斯過程(GP)建模(Meier,Hennig和Schaal,2014年; Nguyen-Tuong,Peters和Seeger,2008年; Ostafew等人,2015年。Ostafew,Schoellig,&Barfoot,2016)或支持向量迴歸(Sigaud,Salaün,&Padois,2011)。

學習技術通常用於學習動力學模型,從而改善先驗系統模型的迭代學習控制(ILC; Kapania&Gerdes,2015; Ostafew,Schoellig,&Barfoot,2013; Panomruttanarug,2017; Z.Yang,Zhou,Li,&Wang,2017b)和模型預測控制(MPC; Drews,Williams,Goldfain,Theodorou,&Rehg,2017; Lefevre,Carvalho,&Borrelli,2015; Lefevre,Carvalho,&Borrelli,2016; Ostafew等,2015,2016;Panet等人,2018,2017; Rosolia,Carvalho和Borrelli,2017)。

ILC是一種控制以重複模式工作的系統的方法,例如自動駕駛汽車的路徑跟蹤。它已成功地應用於越野地形中的導航(Ostafewet等人,2013),自動駕駛停車場(Panomruttanarug,2017)以及自動駕駛汽車的轉向動力學建模(Kapania&Gerdes,2015)。強調了多種好處,例如使用簡單且具有計算能力的光反饋控制器,以及減少控制器的設計工作量(通過預測路徑干擾和平臺動力學來實現)。

MPC(Rawlings&Mayne,2009)是一種控制策略,通過解決優化問題來計算控制動作。由於它能夠處理具有狀態和輸入約束的複雜非線性系統,在過去的二十年中它受到了廣泛的關注。MPC的中心思想是在每個採樣時間通過在短時間內最小化成本函數來計算控制動作,同時考慮到觀察,輸入-輸出約束和過程模型給出的系統動力學。Kamel,Hafez和Yu(2018)對自動機器人的MPC技術進行了一般性綜述。

學習已與MPC結合使用來學習駕駛模型(Lefevre等人,2015;Lefèvre等人,2016),在操縱極限下運行的賽車的駕駛動力學(Drews等人,2017; Rosolia等人,2017)),以及提高路徑跟蹤的準確性(Brunner,Rosolia,Gonzales和Borrelli,2017年; Ostafew等人,2015年,2016年)。這些方法使用學習機制來識別在MPC的軌跡成本函數優化中使用的非線性動力學。這使人們能夠更好地預測車輛的干擾和行爲,從而導致對控制輸入施加最佳的舒適性和安全性約束。訓練數據通常以過去的車輛狀態和觀察結果的形式出現。例如,CNN可用於在本地機器人中心座標系中計算密集的OG地圖。網格圖會進一步傳遞給MPC的成本函數,以在有限的預測範圍內優化車輛的軌跡。

學習控制器的主要優勢在於,它們可以將傳統的基於模型的控制理論與學習算法完美地結合在一起。這使得仍然可以將既定的方法學用於控制器設計和穩定性分析,以及在系統識別和預測級別應用強大的學習組件

6.2、端到端學習控制

在自動駕駛的背景下,End2End學習控制被定義爲從感官數據到控制命令的直接映射。輸入通常來自高維特徵空間(例如圖像或點雲)。如圖1b所示,這與傳統的處理流水線相反,在傳統的流水線中,首先在輸入圖像中檢測到對象,然後規劃路徑,最後執行計算出的控制值。表1總結了一些最受歡迎的End2End學習系統。

End2End學習也可以表述爲擴展到複雜模型的反向傳播算法。該範式是在1990年代首次引入的,當時它建立了非人工神經網絡自動駕駛汽車(ALVINN)系統(Pomerleau,1989年)。ALVINN的設計遵循預定道路,並根據觀察到的道路曲率進行轉向。在End2End駕駛中的下一個里程碑被認爲是在2000年代中期,在經過類似但並非完全相同的駕駛場景的人類駕駛小時培訓後,那時Darpa自主汽車(DAVE)設法通過障礙物充滿的道路(Muller等人,2006)。在過去的幾年中,計算硬件的技術進步促進了End2End學習模型的使用。現在,可以在並行圖形處理單元(GPU)上有效地實現用於梯度估計深層網絡的反向傳播算法。這種處理方式允許訓練大型和複雜的網絡體系結構,這又需要大量的訓練樣本(請參閱第8節)。

End2End控制論文主要採用在現實世界和/或合成數據上脫機訓練的深度神經網絡(Bechtelet等人,2018; Bojarski等人,2016; C.Chen,Seff,Kornhauser,&Xiao,2015; Eraqi等人。,2017年; Fridman等人,2017年; Hecker等人,2018年; Rausch等人,2017年; Xu等人,2017年; S.Yang等人,2017a),或在模擬中訓練和評估的DRL系統(Jaritz等人,2018; Perot,Jaritz,Toromanoff,&Charette,2017; Sallab等人,2017b)。還已經報道了將模擬訓練的DRL模型移植到現實世界駕駛的方法(Wayve,2018),以及直接在現實世界的圖像數據上訓練的DRL系統(Pan等人,2017,2018)。

End2End方法在最近幾年中被NVIDIA®作爲PilotNet架構的一部分而得到普及。該方法是訓練CNN,該CNN將單個前置攝像頭的原始像素直接映射到操縱命令(Bojarski等人,2016)。訓練數據由在各種照明和天氣狀況以及不同道路類型下執行的駕駛場景中收集的圖像和轉向命令組成。在訓練之前,使用擴充功能豐富數據,在原始數據中添加人工移位和旋轉。

PilotNet具有250,000個參數和大約2,700萬個連接。評估分兩個階段進行:第一階段模擬,第二階段在測試車中進行。自主性能指標代表神經網絡駕駛汽車的時間百分比
在這裏插入圖片描述
當模擬車輛偏離中心線超過1 m時,即認爲是6 s是人類重新控制車輛並將其恢復到所需狀態所需的時間,因此將採取干預措施。從霍姆德爾到新澤西州大西洋高地20公里車程,自治度達到98%。通過培訓,PilotNet瞭解了駕駛員如何計算轉向指令(Bojarski等人,2017)。重點在於確定輸入流量圖像中的哪些元素對網絡的轉向決策影響最大。描述了一種在輸入圖像中找到顯着物體區域的方法,同時得出結論,PilotNet學習的低級特徵類似於與駕駛員相關的特徵。

Rausch等人已經報道了類似於PilotNet的End2End架構,該架構將視覺數據映射到操縱命令。(2017),Bechtel等。(2018)和C.Chen等人。(2015)。在徐等人。(2017)
引入的FCN-LSTM方法旨在使用全卷積編碼器聯合訓練像素級監督任務,以及通過時間編碼器進行運動預測。Eraqi等人也考慮了輸入數據的視覺時間依存關係之間的組合。(2017年),其中提出了卷積長短期記憶(C-LSTM)網絡進行轉向控制。在Hecker等人中。(2018),環視攝像機用於End2End學習。據稱,駕駛員還使用後視鏡和側視鏡進行駕駛,因此需要收集車輛周圍的所有信息並將其集成到網絡模型中以輸出適當的控制命令。

爲了對Tesla®AutoPilot系統進行評估,Fridmanet等。(2017)提出了End2End CNN框架。它旨在確定AutoPilot及其自身輸出之間的差異,並考慮了邊緣情況。該網絡使用了從超過420個小時的實際道路行駛中收集的真實數據進行訓練。Tesla®的AutoPilot與建議的框架之間的比較是在Tesla®汽車上實時完成的。評估顯示,在檢測兩個系統之間的差異以及汽車向人類駕駛員的控制轉移方面,準確性爲90.4%。

設計End2End驅動系統的另一種方法是DRL。這主要是在仿真中執行的,在該仿真中,自治代理可以安全地探索不同的駕駛策略。在Sallab等。(2017b),DRL End2End系統用於在TORCS遊戲仿真引擎中計算轉向命令。考慮到更復雜的虛擬環境,Perot等人。(2017)提出了一種異步優勢ActorCritic(A3C)方法,用於在圖像和車速信息上訓練CNN。賈裏茨等人也增強了同樣的想法。(2018),具有更快的收斂性和更寬泛的寬鬆性。這兩篇文章都依賴於以下過程:接收遊戲的當前狀態,然後確定ext控制命令,然後在nextiteration上獲得獎勵。實驗裝置得益於現實的賽車遊戲,即世界汽車拉力錦標賽6,也得益於其他模擬環境,例如TORCS。

基於DRL的控制的下一個趨​​勢似乎是將經典的基於模型的控制技術包括在內,如第6.1節所述。經典控制器提供了穩定的確定性模型,並在此模型上估算了神經網絡的策略。通過這種方式,將建模系統的硬約束轉移到神經網絡策略中(T.Zhang,Kahn,Levine和Abbeel,2016年)。在Panet等人中提出了針對真實圖像數據進行訓練的ADRL政策。(2017年,2018年)進行主動駕駛。在這種情況下,使用模型預測控制器以訓練時提供的最佳軌跡示例訓練CNN(稱爲學習者)。

7、自主駕駛中深度學習的安全性

安全意味着缺乏導致系統危險的條件(Ferrel,2010)。演示系統的安全意味着缺乏導致系統危險的條件(Ferrel,2010)。演示系統的安全性:

  • 理解可能發生的故障的影響
  • 瞭解更廣泛系統中的上下文
  • 定義有關係統上下文和可能使用它的環境的假設
  • 定義安全行爲的含義,包括非功能性約束

Burton,Gauerhof和Heinzemann(2017),上述示例針對深度學習組件映射了一個示例。該組件的問題空間是帶有CNN的行人檢測。該系統的首要任務是在100 m的距離內定位類人的物體,其橫向精度爲±20 cm,假陰性率爲1%,假陽性率爲5%。假設當檢測到車輛的計劃軌跡爲100 mahead的人員時,制動距離和速度足以做出反應。可以使用替代的傳感方法將系統的總體假陰性和假陽性率降低到可接受的水平。上下文信息是距離和精度應映射到呈現給CNN的圖像幀的尺寸。

機器學習或深度學習的上下文中,術語安全沒有公認的定義。在Varshney(2016)中,Varshney定義了風險,認識論的不確定性以及不良後果所造成的危害方面的安全性。Hethen分析了成本函數的選擇以及使經驗平均培訓成本最小化的適當性。Amodei等。(2016)考慮了機器學習系統中的事故問題。此類事故被定義爲不良AI系統設計中可能出現的意外行爲和有害行爲。作者列出了與事故風險相關的五個實際研究問題的列表,這些問題是根據問題是由於目標函數錯誤(避免副作用和避免獎勵黑客攻擊),過於昂貴而無法經常評估(可分級監督)還是在評估過程中出現不良行爲而產生的。學習過程(安全探索和分配轉移)。

爲了擴大安全範圍,Möller(2012)提出了一種安全的決策理論定義,適用於廣泛的領域和系統。他們將安全性定義爲與不必要的後果相關的風險和認知不確定性的降低或最小化,這些後果嚴重到足以被視爲有害。該定義的關鍵點是:(a)從某種意義上講,有害事件的成本必須足夠高才能使事件成爲有害事件;(b)安全性既要降低預期傷害的可能性,也要降低意外傷害的可能性。

不管以上關於安全性的經驗定義和可能的解釋如何,在不安全關鍵的系統中使用深度學習組件仍然是一個未解決的問題。用於道路車輛功能安全的ISO 26262標準提供了一套全面的確保安全的要求,但未解決基於深度學習的軟件的獨特功能。Queiroz和Czarnecki(2017)通過分析機器學習可能會影響標準的地方來解決這一差距,並就如何適應這種影響提供了建議。這些建議側重於確定危害,故障和失敗情況的實現工具和機制的方向,同時也要確保完整的培訓數據集和設計多層體系結構。需要在軟件開發生命週期的各個階段使用特定技術。

ISO 26262標準建議使用危險分析和風險評估(HARA)方法來識別系統中的危險事件並指定減輕危險的安全目標。該標準有10個部分。我們的重點是第6部分:軟件級別的產品開發,這是遵循衆所周知的V工程模型的標準。汽車安全完整性等級(ASIL)是指ISO 26262中針對汽車系統中某個項目(例如,子系統)定義的風險分類方案。

ASIL表示降低風險所需的嚴格程度(例如,測試技術,所需的文檔類型等),其中ASIL D代表最高風險,而ASIL A代表最低風險。如果將元素分配給質量管理(QM),則不需要安全管理。首先,將針對給定危害評估的ASIL分配給旨在解決該危害的安全目標,然後根據該目標得出的安全要求繼承該目標(Salayet等人,2017)

根據ISO 26226,危害定義爲“由行爲失常引起的潛在傷害源,其中傷害是人身傷害或對人的健康的損害”(Bernd等,2012)。但是,深度學習組件可能會產生新的危害類型。通常會發生這種危害的一個例子,因爲人們認爲自動駕駛輔助系統(通常是使用學習技術開發的)比實際更可靠(Parasuraman&Riley,1997)

分析深度學習組件安全性的關鍵要求是檢查結果的直接人工成本是否超過某些危害嚴重性閾值。從人類的角度來看,不希望有的結果確實是有害的,並且它們的影響可以實時地感受到。這些結果可以歸類爲安全問題。深度學習決策的成本與明確包含損失函數L的優化公式有關。
通常,概率分佈是未知的,從而排除了對域的使用適應技術(Caruana等,2015;Daumé&Marcu,2006)。這是與安全性相關的認知不確定性之一,因爲對不同分佈的數據集進行訓練可能會因偏見而造成很大的傷害。

實際上,機器學習系統僅會遇到有限數量的測試樣本,而實際操作風險是測試集上的經驗數量。即使風險是最佳的,操作風險也可能比小型基數測試儀的實際風險大得多。由測試集實例化引起的不確定性可能對單個測試樣本具有很大的安全隱患(Varshney&Alemzadeh,2016)。

編程組件的故障和失敗(例如,使用非正式算法解決問題的故障)與深度學習組件的故障和故障完全不同。深度學習組件的特定故障可能由不可靠或嘈雜的傳感器信號(由於惡劣天氣導致的視頻信號,由於吸收建築材料而引起的雷達信號,GPS數據等),神經網絡拓撲,學習算法,訓練集或環境的意外變化引起(例如,未知的駕駛場景或道路上的事故)。我們回想起特斯拉汽車造成的第一次自動駕駛事故,由於對象分類錯誤,自動駕駛功能將車輛撞向卡車(萊文,2018年)。儘管進行了1.3億英里的測試和評估,但事故是在極爲罕見的情況下(也稱爲黑天鵝)造成的,這是由於卡車的高度,其明亮的天空下爲白色,以及車輛在馬路上的位置所致。

自動駕駛車輛必須具有故障安全機制,通常以安全監視器的名稱出現。一旦檢測到故障,這些必須停止自主控制軟件(Koopman,2017),在Kurd,Kelly和Austin(2007),Harris(2016)和麥克弗森(2018)中。這導致開發了專門且重點突出的工具和技術來幫助發現故障。Chakarov,Nori,Rajamani,Sen和2015 Vijaykeerthy(2018)描述了一種由於不良訓練數據而對錯誤分類進行調試的技術,而Nushi,Kamar,Horvitz和Kossmann((2017)。在Takanami,Sato和Yang(2000)中,白盒技術用於通過斷開鏈接或隨機改變權重將故障注入到神經網絡中。

訓練集在深度學習組件的安全性中起着關鍵作用。ISO 26262標準規定,應充分規定組件的性能,並應根據其規格對每個改進進行驗證。在深度學習系統中,使用訓練集而不是規範的情況違反了該假設。目前尚不清楚如何確保始終減輕相應的危害。訓練過程不是平均過程,因爲受訓練的模型將根據訓練集的構造而正確,直到模型和學習算法的限制爲止(Salay et al。,2017)。這種考慮的影響在商用視音頻市場中顯而易見,在該市場中,由訓練集中不存在的數據引起的BlackSwan事件可能導致死亡(McPherson,2018)

應制定詳細的要求並將其追溯到危險源。此類要求可以指定如何獲得訓練,驗證和測試集。隨後,可以相對於本說明書驗證收集的數據。此外,可以使用某些規範(例如,車輛不能超過3 m的事實)來拒絕誤報。這樣的屬性甚至可以在訓練過程中直接使用以提高模型的準確性(Katz,Barrett,Dill,Julian,&Kochenderfer,2017)

即使對於安全性至關重要的系統,機器學習和深度學習技術也已開始變得有效和可靠,即使此類系統的完整安全性保證仍然是未解決的問題。車行業的當前標準和法規無法完全映射到此類系統,需要開發針對深度學習的新安全標準。

8、訓練自動駕駛系統的數據源

不可否認,使用實時數據是培訓和測試自動駕駛組件的關鍵要求。在此類組件的開發階段需要大量數據,使得在公共道路上收集數據成爲一項有價值的活動。爲了獲得對駕駛場景的全面描述,用於數據收集的車輛配備了各種傳感器,例如雷達,LiDAR,GPS,攝像機,慣性測量單元(IMU)和超聲波傳感器。傳感器的設置因車輛而異,具體取決於計劃如何使用數據。AV的常見傳感器設置如圖7所示。

近年來,主要是由於對自動駕駛汽車的研究興趣越來越大,許多駕駛數據集已經公開並記錄在案。它們的大小,傳感器設置和數據格式各不相同。研究人員僅需確定最適合其問題空間的適當數據集即可。Janai等。(2017)發表了關於廣泛數據集的調查。這些數據集通常可以解決計算機視覺領域的問題,但很少有適合自動駕駛的主題。

關於自動駕駛車輛算法的公開可用數據集的最全面調查可以在Yin和Berger(2017)中找到。本文介紹了27個可用數據集,其中包含在公共道路上記錄的數據。從不同的角度比較數據集,以便讀者可以選擇最適合自己的任務。

儘管我們進行了廣泛的搜索,但我們仍未找到將至少一部分可用數據組合在一起的主數據集。原因可能是數據格式和傳感器設置沒有標準要求。每個數據集在很大程度上取決於收集數據的算法目標。最近,Scale®和nuTonomy®公司開始創建迄今爲止市場上最大,最詳細的自動駕駛數據集之一.6其中包括由伯克利大學研究人員開發的伯克利DeepDrive(F.Yu等人,2018)。

在Fridman等人中。(2017),作者提出了一項研究,旨在收集和分析大規模的半自動駕駛自然主義數據,以更好地刻畫當前技術的最新水平。該研究涉及99名參與者,29輛汽車,405、807英里和大約55億個視頻幀。不幸的是,這項研究中收集的數據尚未公開。

在本節的其餘部分中,我們將提供並強調公開可用的最相關數據集的獨特特徵(表2)。

KITTI Vision Benchmark數據集(KITTI; Geiger et al。,2013):由德國卡爾斯魯厄理工學院(KIT)提供,該數據集適合基準立體視覺,光流,3D跟蹤,3D對象檢測,或SLAM算法。它被稱爲自動駕駛汽車領域中最負盛名的數據集。迄今爲止,它在文獻中已經引用了2,000多次引用。數據採集​​車配備了多個高分辨率彩色和灰度立體攝像機,一個 Velodyne 3D LiDAR和高精度GPS / IMU傳感器。總體而言,它提供了在卡爾斯魯厄周圍農村和公路交通場景中收集的6小時駕駛數據。該數據集位於Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Li-cense下提供。

uScenes數據集(Caesar等人,2019):由nuTonomy構造,該數據集包含從波士頓和新加坡收集的1,000個駕駛場景,這兩個場景以交通繁忙和極富挑戰性的駕駛狀況而聞名。爲了簡化常見的計算機視覺任務,例如對象檢測和跟蹤,提供程序在整個數據集上以2 Hz的準確3D邊界框註釋了25個對象類。車輛數據的收集工作仍在進行中,最終的數據集將包括約140萬個攝像機圖像,400,000次LiDAR掃描,130萬次RADAR掃描以及40,000個關鍵幀中的110萬個對象邊界框。數據集由知識共享署名-非商業性-相同方式共享3.0許可提供

汽車多傳感器數據集(AMUSE; Koschorrek等人,2013):由瑞典林雪平大學提供,由在各種環境中記錄的序列組成,這些序列是從裝有全方位多相機,高度傳感器,IMU,速度傳感器和GPS的汽車中記錄的。向公衆提供了用於讀取這些數據集的應用程序編程接口(API),以及以給定的格式。數據集位於CreativeCommons歸因-NonCommercial-NoDerivs 3.0 UnsupportedLicense下多傳感器和多相機數據流的集合儲存以給定的格式。數據集位於CreativeCommons歸因NonCommercial-NoDerivs 3.0 UnsupportedLicense下

福特校園視野和LiDAR數據集(Ford; Pandey等人,2011):由密歇根大學提供,該數據集是使用福特F250皮卡車收集的配備專業(Applanix POS‐LV)和消費(Xsens MTi‐G)IMU,Velodyne LiDAR掃描儀,兩個推掃式前視Riegl LiDAR和Point GreyLadybug3全向攝像頭系統。2009年,在福特研究園區和密歇根州迪爾伯恩市區附近記錄了大約100 GB的數據。該數據集非常適合測試各種自動駕駛和SLAM算法。

Udacity數據集(Udacity,2018年):車輛傳感器設置包含單目彩色攝像機,GPS和IMU傳感器以及Velodyne 3D LiDAR。數據集的大小爲223 GB。數據帶有標籤,並向用戶提供駕駛員在測試過程中記錄的相應轉向角。

Cityscapes數據集(Cityscapes,2018年):由德國戴姆勒AGR&D提供;德國馬克斯·普朗克信息學研究所(MPI‐IS),德國達姆施塔特工業大學視覺推理小組,德國,Cityscapes數據集着重於對城市街道場景的語義理解,這就是其僅包含立體視覺彩色圖像的原因。圖像的多樣性非常大:50個城市,不同的季節(春季,夏季和秋季),各種天氣條件和不同的場景動態。有5,000張帶有精細註釋的圖像和20,000張帶有粗註釋的圖像。使用此數據集對基準進行語義分割算法(H.Zhao,Shi,Qi,Wang和Jia,2017)和實例分割(S.S.(Liu,Jia,Fidler&Urtasun,2017).

Oxford數據集(Maddern等人,2017):由英國牛津大學提供,數據集的收集時間跨度超過1年,產生了超過1,000公里的行駛記錄,幾乎從安裝在車輛上的六個攝像頭以及LiDAR,GPS和INS地面實況收集了2000萬張圖像。在所有天氣條件下都收集了數據,包括大雨,夜晚,陽光直射和下雪。該數據集的特點之一是,該車輛在一年的時間內經常行駛相同的路線,以使研究人員能夠研究在現實世界,動態城市環境中對AV進行的長期定位和製圖。(CamVid; Brostowet et al。,2009):由英國劍橋大學提供,它是文獻中引用最多的數據集之一,並且是第一個公開發布的數據集,其中包含具有對象類語義標籤的視頻集以及元數據註釋。該數據庫提供了將每個像素與32個語義類之一相關聯的地面真相標籤。傳感器設置僅基於一個安裝在車輛儀表板上的單目攝像頭。場景的複雜性非常低,僅在交通流量相對較低且天氣條件良好的城市地區駕駛車輛。

劍橋駕駛標籤視頻數據集(CamVid; Brostowet等,2009):由英國劍橋大學提供,它是文獻中引用次數最多的數據集之一,也是第一個公開發布的數據集,其中包含帶有對象的視頻集合類語義標籤以及元數據註釋。該數據庫提供了將每個像素與32個語義類之一相關聯的地面真相標籤。傳感器設置僅基於一個安裝在車輛儀表板上的單目攝像頭。場景的複雜性非常低,僅在交通流量較低且天氣條件良好的城市地區駕駛車輛。

戴姆勒行人基準數據集(Flohr&Gavrila,2013年):由戴姆勒股份公司研發部和阿姆斯特丹大學提供,該數據集適合行人檢測,分類,分割和路徑預測。僅使用車載單聲道和立體攝像機從行車中觀察到行人數據。這是第一個包含行人的數據集。最近,數據集擴展了以相同設置捕獲的騎自行車者視頻樣本(X. Li等人,2016)。

加州理工學院行人檢測數據集(Caltech; Dollar等,2009):由美國加州理工學院提供,該數據集包含帶註釋的豐富視頻,這些視頻是從行駛中的車輛記錄下來的,具有挑戰性的低分辨率圖像和經常被人遮擋的圖像。大約10個小時的駕駛場景,總計約25萬幀,共計35萬個邊界框和2300個獨特的行人註釋。註釋包括邊界框和詳細的遮擋標籤之間的時間對應

考慮到可用數據庫的多樣性和複雜性,可能很難選擇一個或多個來開發和測試自動駕駛組件。可以看出,傳感器設置在所有可用數據庫中都不同。爲了實現本地化和車輛行駛,必須使用LiDAR和GPS / IMU傳感器,其中最受歡迎的LiDAR傳感器是Velodyne(Velodyne,2018)和Sick(Sick,2018)。從雷達傳感器記錄的數據僅存在於NuScenes數據集中。雷達製造商採用非公開的專有數據格式。幾乎所有可用的數據集都包括從攝像機捕獲的圖像,而主要配置爲捕獲灰度圖像的單眼和立體攝像機則得到了平衡的使用。AMUSE和Ford數據庫是唯一使用全向攝像機的數據庫

除了原始記錄的數據外,數據集通常還包含其他文件,例如註釋,校準文件,標籤等。爲了處理此文件,數據集提供者必須提供使用戶能夠讀取和後處理數據的工具和軟件。由於某些數據集(例如,Caltech,Daimler等),數據集的拆分也是要考慮的重要因素。和Cityscapes)已經提供了經過預處理的數據,這些數據分爲不同的組:測試,測試和驗證。這樣可以使期

要考慮的另一個方面是許可證類型。最常用的許可證是Creative Commons Attribution-NonCom-mercial-ShareAlike 3.0。它允許用戶以任何介質或格式複製和重新分發,還可以在材料上進行重新混合,轉換和構建。KITTI和NuScenes數據庫就是這種發行許可證的示例。牛津數據庫使用知識共享署名-非商業4.0。與第一許可證類型相比,這不強制用戶在與數據庫相同的許可證下分配他的貢獻。與之相反,AMUSE數據庫是根據知識共享署名-非商業性-noDerivs 3.0許可的,這使得如果對材料進行了修改,則該數據庫是非法分發的望算法與類似方法的基準測試保持一致

除極少數例外,數據集是從單個城市收集的,該城市通常位於歐洲,美國或亞洲的大學校園或公司所在地。德國是駕駛錄音車的最活躍國家。不幸的是,所有可用數據集一起覆蓋了世界地圖的一小部分。一原因是數據的存儲大小與傳感器的設置和質量成正比。例如,Forddata集每行駛1公里大約需要30 GB,這意味着覆蓋整個城市將需要數百TeraBytes的驅動數據。大部分可用數據集都考慮了晴天,白天和城市情況,這些是自動駕駛系統的理想運行條件

9、計算硬件和部署

在目標邊緣設備上部署深度學習算法不是一項艱鉅的任務。涉及車輛的主要限制因素是價格,性能問題和功耗。因此,嵌入式平臺由於其便攜性,多功能性和能效,對於將AI算法集成到車輛內變得至關重要。

在提供用於在自動駕駛汽車內部署深度學習算法的硬件解決方案的市場領導者是NVIDIA®。DRIVEPX(NVIDIA)是一款AI車載計算機,旨在使汽車製造商直接專注於AV的軟件

DrivePX體系結構的最新版本基於兩個Tegra X2(NVIDIA)片上系統(SoC)。每個SoC包含兩個Denv(NVIDIA)內核,四個ARM A57內核以及一個Pascal(NVIDIA)一代的GPU。NVIDIA®DRIVEPX能夠執行實時環境感知,路徑規劃和本地化。它結合了深度學習,傳感器融合和環視技術,以改善駕駛體驗。

NVIDIA®DRIVE AGX開發者平臺於2018年9月推出,是基於Volta技術(NVIDIA)的世界上最先進的自動駕駛汽車平臺(NVIDIA)。它具有兩種不同的配置,分別是DRIVE AGX Xavier和DRIVE AGX Pegasus.

DRIVE AGX Xavier是一個可擴展的開放平臺,可以充當自動駕駛車輛的AI大腦,並且是一種節能計算平臺,每秒30萬億次操作,同時滿足汽車標準,例如ISO 26262功能安全規範。NVIDIA®DRIVEAGX Pegasus通過基於兩個NVIDIA®Xavier處理器和兩個最先進的TensorCoreGPU的架構提高了性能。

汽車製造商用於ADAS的硬件平臺是Renesas Autonomy(NVIDIA)的R‐Car V3H SoC平臺。該SoC提供了以低功耗實現高性能計算機視覺的可能性。R‐Car V3H針對涉及立體攝像機,包含CNN專用硬件,密集光流,立體視覺和物體分類的應用進行了優化。硬件具有四個1.0 GHz ArmCortex-A53 MPCore內核,這使R-Car V3H成爲合適的硬件平臺,可用於部署訓練有素的推理引擎來解決汽車領域內的特定深度學習任務。

瑞薩還提供了一種類似的SoC,稱爲R-Car H3(NVIDIA),可提供增強的計算功能並符合功能安全標準。與僅針對CNN進行了優化的R‐Car V3H相比,它配備了新的CPU內核(ArmCortex-A57),可用作部署各種深度學習算法的嵌入式平臺

現場可編程門陣列(FPGA)是另一個可行的解決方案,在深度學習應用程序中顯示出性能和功耗方面的顯着改善。可以從四個主要角度分析FPGA在運行深度學習算法上的適用性:效率和功能,原始計算能力,靈活性和功能安全性。我們的研究基於英特爾(Nurvitadhi等,2017),微軟(Ovtcharov等,2015)和UCLA(Cong等,2018)發表的研究。

通過減少深度學習應用程序中的延遲,FPGA提供了額外的原始計算能力。大量的芯片高速緩存存儲器減少或消除了與外部存儲器訪問相關的存儲器瓶頸。此外,FPGA的優勢在於可以支持各種數據類型以及自定義的用戶定義類型。FPGA在效率和功耗方面得到了優化。像Microsoft和Xilinx這樣的製造商提供的研究表明,當以相同的計算複雜度處理算法時,GPU的功耗是FPGA的10倍,這表明FPGA可能是更適合汽車領域深度學習應用的解決方案。FPGA具有多種靈活性,具有靈活性,可將硬件可編程資源,數字信號處理器和處理器模塊RAM(BRAM)組件組合在一起。這種架構靈活性適用於深度和稀疏的神經網絡,這是當前機器學習應用程序的最新技術。另一個優點是可以連接到各種輸入和輸出外圍設備,例如傳感器,網絡元素和存儲設備

在汽車領域,功能安全是最重要的挑戰之一。FPGA旨在滿足包括ADAS在內的廣泛應用的安全要求。與最初用於圖形和高性能計算系統的GPU相比,在不需要功能安全的情況下,FPGA在開發駕駛員輔助系統方面具有顯着優勢

10、討論和結論

我們已經確定了七個主要領域,這些領域在自動駕駛領域構成了開放的挑戰。我們相信深度學習和AI將在克服這些挑戰中發揮關鍵作用:

感知:爲了使自動駕駛汽車能夠安全地駕車行駛,它必須能夠了解周圍的環境。深度學習是大量感知系統背後的主要技術。儘管已報告了目標檢測和識別準確性方面的巨大進步(Z.Q. Zhao,Zheng,Xu,&Wu,2018),但當前系統主要用於計算2D或3D邊界框用於幾個訓練有素的對象類別,或提供駕駛環境的細分圖像。未來的感知方法應着重於提高識別細節的水平,從而可以實時感知和跟蹤更多物體。此外,還需要額外的工作來彌合基於圖像和基於LiDAR的3D感知之間的差距(Wang等。,2019年),使計算機視覺社區能夠結束當前關於攝像頭與LiDAR作爲主要感知傳感器的爭論。

短期到中期推理:除了強大且準確的感知系統之外,AV還應能夠在短(毫秒)到中間(秒至分鐘)的時間範圍內推理其駕駛行爲(Pendleton等,2017)。人工智能和深度學習是很有前途的工具,可用於導航各種駕駛場景所需的高低級路徑規劃。目前,無人駕駛汽車深度學習中的論文大部分都集中在感知和End2End學習上(Shalev‐Shwartz等人,2016; T.Zhang等人,2016)。在當地軌跡估計和規劃領域發揮重要作用。我們認爲導航系統提供的長期推理已解決。這些是通過道路網絡選擇從汽車當前位置到目的地的路線的標準方法(Pendleton等,2017)

訓練數據的可用性:“數據就是新油”最近成爲汽車行業最受歡迎的報價之一。深度學習系統的有效性與訓練數據的可用性直接相關。根據經驗,目前的深度學習方法也會根據訓練數據的質量進行評估(Janai et al。,2017)。數據質量越好,算法的準確性就越高。AV記錄的每日數據約爲PB。這對培訓程序的並行化以及存儲基礎架構都提出了挑戰。最近幾年已經使用了模擬環境,以彌合稀缺數據和深度學習的空白之間的差距。在模擬世界的準確性和現實世界的駕駛之間仍然存在差距。

學習特殊情況:大多數駕駛場景都可以用經典方法解決。然而,其餘尚未解決的情況是一些極端情況,直到現在,這些情況仍需要駕駛員的理智和智慧。爲了克服極端情況,應該提高深度學習算法的泛化能力。深度學習中的泛化在學習可能導致事故的危險情況時特別重要,特別是因爲缺乏針對此類極端情況的培訓數據。這也意味着可以減少訓練實例數量的單發和低發學習方法的設計。

基於學習的控制方法:經典控制器使用由固定參數組成的先驗模型。在諸如自動駕駛之類的複雜情況下,這些控制器無法預測所有駕駛情況。深度學習組件根據過去的經驗來適應的有效性也可以用來學習汽車控制系統的參數,從而更好地近似底層的真實系統模型(Ostafew,2016; Ostafew等,2016)。

功能安全性:在安全關鍵型系統中使用深度學習仍然是一個公開辯論,並且正在努力使計算智能和功能安全社區彼此靠近。當前的安全標準(例如ISO 26262)不支持機器學習軟件(Salay等人,2017)。儘管提出了新的數據驅動設計方法論,但在解釋性,穩定性或分類穩健性方面仍然存在未解決的問題。

實時計算和通信:最後,必須滿足實時要求,以處理從汽車傳感器套件中收集的大量數據,以及通過高速通信線路更新深度學習系統的參數(Nurvitadhi等等人,2017)。這些實時約束可以通過自動駕駛汽車專用半導體芯片的進步以及5G通信網絡的興起得到支持

10.1、最後的筆記

在過去的十年中,視音頻技術取得了飛速的發展,特別是由於AI和深度學習領域的進步。如今,在爲自動駕駛汽車設計不同的組件時,當前的AI方法已被使用或考慮在內。深度學習方法不僅影響了傳統的感知計劃,動作管道的設計,而且還啓用了End2End學習系統,能夠將感覺信息直接映射到操縱命令。

無人駕駛汽車是複雜的系統,必須安全地將乘客或貨物從出發地駕駛到目的地。在公共道路上基於AI的AV部署的出現遇到了幾個挑戰。鑑於當前的形式主義和神經網絡的可解釋性,一個主要的挑戰是難以提高這些車輛的功能安全性。最重要的是,深度學習系統依賴於大型培訓數據庫,並需要大量的計算硬件。

本文對自動駕駛中使用的深度學習技術進行了調查。性能和計算要求的調查可爲基於AI的自動駕駛汽車的系統級設計提供參考。

我的評價

在細分領域看來,本文講的還是很粗略的。例如感知算法和數據集,其實都是一些基本的東西。但對我而言,control和safety是完全沒有接觸過的,對於這些領域,本文給出簡單的綜述以及文獻,是一個想要了解這些領域的很好的開始。自動駕駛系統是一個龐大而複雜的系統,每個子系統也非常複雜,不可能用如此短的篇幅說清楚,但作者給出了發展的脈絡和文獻,對想要了解整個系統的人來說已經是非常好的一篇文獻了。但如果是對於那些想跟進子領域的人來說,這篇文章有些泛了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章