3D-LaneNet：端到端三維多車道檢測ICCV2019

3D-LaneNet: End-to-End 3D Multiple Lane
Detection

論文鏈接：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Garnett_3D-LaneNet_End-to-End_3D_Multiple_Lane_Detection_ICCV_2019_paper.pdf

摘要

本文介紹了一個網絡，它可以直接從單個圖像預測道路場景中車道的三維佈局。這項工作標誌着首次嘗試在不假設已知恆定車道寬度或不依賴預映射環境的情況下，通過車載傳感來完成這項任務。本文的網絡架構，3D LaneNet，應用了兩個新概念：網內反向透視映射（IPM）和基於錨定的車道表示。網絡內部IPM投影有助於在常規圖像視圖和俯視圖中顯示雙重表示信息。錨percolumn輸出表示使本文的端到端方法能夠取代常見的啓發式方法，例如聚類和異常值拒絕，將車道估計作爲對象檢測問題。此外，本文的方法顯式地處理複雜的情況，如車道合併和拆分。結果顯示在兩個新的三維車道數據集，一個合成和一個真實的。爲了與現有的方法進行比較，本文只在圖像上使用簡單的車道檢測基準對本文的方法進行了測試，取得了與現有方法相媲美的性能。

Introduction

三維車道檢測是實現自主駕駛的關鍵技術，它包括對可行駛車道相對於宿主車輛的三維位置的精確估計。存在兩種互補的技術解決方案：加載離線生成的預映射車道[33]和基於感知的實時車道檢測[4]。在給定精確的主機定位（在地圖座標系中）的情況下，離線解決方案在幾何上是精確的，但部署和維護起來很複雜。

最常見的基於感知的解決方案是使用單目攝像機作爲解決任務的主要傳感器。現有的基於攝像機的方法在圖像域中檢測車道，然後通過假設地面起伏將其投影到三維世界中[4]，這不僅會導致高程不準確，而且會導致違反假設時車道曲率不準確。受卷積神經網絡（CNNs）最近在單目深度估計方面的成功啓發[20]，本文提出的解決方案3D LaneNet是一個執行3D車道檢測的深CNN。該網絡經過端到端的訓練，在每個縱向路段輸出，在攝像機座標系下，車道通過路段及其三維曲線的可信度。本文的方法如圖1所示。

本文的直接單發方法避免了現有方法中使用的後處理，如聚類和異常值拒絕。該網絡的主幹是基於一種新的雙路徑體系結構，該體系結構使用多個特徵映射到虛擬鳥瞰圖的網絡內投影。這種雙重表示增強了網絡在道路場景中推斷3D的能力，並且可能用於需要這種能力的其他任務（例如3D汽車檢測）。輸出由新的基於列的錨定編碼表示，該編碼使網絡在水平方向上保持不變，並啓用端到端的方法。

與SSD[21]和YOLO[29]等基於錨的單點目標檢測方法類似，每個輸出都與錨關聯。該方法有效地將問題轉化爲一個目標檢測問題，每個車道實體都是一個目標，其三維曲線模型的估計與目標的邊界盒一樣。本文在三個不同的數據集上驗證了本文的方法。用於開發該方法的主要數據集是一個新的計算機圖形數據集synthetic-3D-lanes1，它提供了對每個車道元素的精確3D位置的完全訪問。雖然存在多個駕駛模擬器[8，30]，但它們並不專注於三維車道檢測任務，並且在相關場景屬性（例如車道曲率）的可變性方面受到限制。本文在這一領域的主要成就是能夠隨機生成具有高度可變三維形狀和車道拓撲結構的路段。因此，本文將其作爲評估和消融研究的主要數據集。

爲了驗證本文的方法對真實世界的圖像，本文收集了一個額外的數據集，三維車道，從一個車載前攝像頭。三維車道標註是在半手動標註方案中使用激光雷達掃描儀完成的。最後，爲了與僅在圖像域中工作的最新車道檢測方法進行比較，本文將本文的方法應用於此任務，並演示了端到端的image only車道檢測。這個僅限圖像的版本在tuSimple數據集[1]上進行了測試，在沒有通用後處理技術的情況下，獲得了與現有技術相競爭的結果。

總之，本文的主要貢獻是：

•引入一個新問題：無幾何假設的單幀三維車道檢測，以及新的評估指標

•一種新的雙通道架構，部署了內部網絡功能圖IPM預測

•一種新的基於錨的車道輸出表示法，可實現直接的端到端訓練網絡，用於3D和基於圖像的車道檢測。

•生成車道拓撲（即車道數、合併、分割）和三維形狀變化的隨機合成示例的方法。

Related Work

傳統的車道檢測系統（如[10]）將低層操作（如方向濾波器）與高層啓發式（如Hough變換）結合起來，以檢測圖像中的連續車道。

公共管道包括4個階段：

局部車道特徵提取（1），

車道模型設置（2），

圖像與世界的對應（3）

以及時間聚集（4）。

Bar Hillel等人[4] 提供這個模塊化分解以及對傳統系統的詳細概述。近年來，局部特徵提取階段是通過對圖像應用一個或多個cnn來完成的，但總體流程仍然非常相似，後期的後處理階段仍然存在。最初，CNNs通過增強邊緣映射（Kim和Lee[15]）或對候選塊進行分類（He等，al。[12] ）中。

Huval等人[13] 使用目標檢測CNN檢測局部車道線段。Vpnet（Lee等人[18] ），遵循類似的概念，並額外檢測其他道路標記和消失點，以改進車道檢測。Kim和Park[16]將局部特徵提取階段重新表述爲一個語義分割問題，用兩類對應的左右車道定界符，擴展網絡的覆蓋範圍進行聚類。然而，世界座標車道模型仍然必須適用於每個集羣，並且不處理多個車道。

Neven等人[25]嘗試端到端多車道檢測，通過訓練CNN不僅創建二元車道像素掩碼，而且還創建用於聚類車道點的特徵嵌入。

Ghafoorian等人[9] 提出在車道檢測的背景下，應用生成性對抗網絡使語義分割網絡的輸出更加真實。

幾項工作（如Meyer等人[23]，奧利維拉等人[26]）是基於類似的方法構建的，其中主機和可能相鄰的車道是語義類（車道內部而不是車道分隔符）。與所有提出的方法不同，3D LaneNet通過在一次前饋過程中直接從圖像提供3D世界座標中的全多車道表示，統一了公共管道的前三個階段。

此外，以前的方法使用地面假設進行圖像與世界的對應，而本文的方法完全估計參數化的三維曲線定義車道。

只有少數幾種方法可以直接解決三維車道估計問題，如[24]，使用立體聲，以及[34，6]，它們遵循多視圖幾何方法，並假定已知的恆定道路/車道寬度來解決深度模糊問題。相反，本文使用數據驅動的方法，不做幾何假設。

反向透視映射（IPM）從相機視圖生成場景的虛擬俯視圖（有時稱爲鳥瞰圖），如圖1中的示例所示。它是在障礙物檢測的背景下由Mallot等人引入的。[22]和第一個用於Pomerleau的車道檢測[28]。自那時起，IPM被廣泛用於車道檢測（如[5，3]），因爲在這個視圖中車道通常是平行的，並且它們的曲率可以用低階多項式精確地擬合。此外，刪除透視效果會導致車道標記看起來相似（模糊效果除外），而不管它們與攝影機的距離如何。最近他等。[12] 介紹了一種“雙視圖CNN”，它由兩個獨立的子網絡組成，每個子網絡產生一個描述符（每個視圖一個），然後將其連接並應用於候選圖像位置。

Li等人[19] 使用CNN直接在頂視圖圖像上檢測車道標線以及幾何屬性，如局部位置和方向，這將保持對這些屬性的不變性。此外，他們還部署了第二個遞歸網絡，該網絡通過圖像來檢測一致的車道。

Neven等人[25]使用子網絡（“H-net”）在每張圖像中預測的地平線，將車道投影到俯視圖，以改進曲線擬合。與之前的工作相比，本文在一個協同的單一網絡方法中利用了這兩種觀點。更一般地，本文提出第一種方法，即使用端到端訓練的CNN直接檢測多條車道，並估計每條車道的3D曲率。本文還表明，本文的方法既適用於中心線，也適用於分隔符，能夠處理拆分和合並，而無需任何進一步的後處理。

Method

我們的方法從安裝在車輛上的前向攝像頭獲取一幅圖像作爲輸入，如圖3所示。我們假設已知的攝像機內參數k（例如焦距、投影中心）。我們還假設攝像機安裝在相對於局部地平面的零度滾動位置。我們不假設已知的攝像機高度和俯仰，因爲這些可能會因車輛動力學而改變。

3.1. Top-view projection

我們簡要回顧了逆透視圖（IPM）。簡而言之，IPM是一個單應映射，它將一個前視圖圖像扭曲爲一個虛擬的頂視圖圖像，如圖1的左上角圖像所示。這相當於應用相機旋轉單應（視圖向下旋轉）和各向異性縮放[11]。在我們的實現中，我們希望確保頂視圖圖像中的每個像素對應於道路上的預定位置，而不依賴於相機的內部特性及其相對於道路的姿勢。參見圖3瞭解以下定義的說明。

3.2. Network structure

3D LaneNet的概述如圖4所示。信息在兩個平行的流或路徑中處理：圖像視圖路徑和頂視圖路徑。我們稱之爲雙通道主幹。圖像視路對圖像信息進行處理和保留，頂視圖視路爲特徵提供平移不變性，並用於預測三維車道檢測輸出。圖像視圖路徑的架構基於VGG16[31]，而頂視圖路徑的結構類似。信息通過四個投影變換層流向頂視圖路徑，如下所示。

3.3. The projective transformation layer

我們架構中的一個主要構建塊是圖4中用藍色標記的投影變換層。這一層是空間變壓器模塊的具體實現，略有變化[14]。它執行與圖像平面在空間上對應的輸入特徵映射的可微採樣，以輸出與場景的虛擬頂視圖在空間上對應的特徵映射，同時保持信道的#。實現差分採樣生成的投影特徵地圖（第一組除外）連接到俯視路徑的下游特徵地圖。

隨後的神經元，在連接的特徵映射上操作，結合以下兩個用於車道檢測的期望特性。首先，俯視平面上的平移不變性。這很有價值，因爲在俯視圖中，車道在整個空間具有相似的外觀和幾何結構。第二，在圖像和頂視圖中保存雙重信息上下文。附加的圖像視圖上下文對俯視圖中不存在的信息進行編碼，如柵欄、天際線和樹木，這些信息對於解譯場景的三維結構至關重要。特別地，在較遠的範圍內，圖像視圖上下文的視覺信息更豐富，並且與俯視圖相比表示更大的實際區域。

3.4. Training and ground truth association

無論是在訓練時間還是在評估中，如果整個車道未在有效的頂視圖圖像邊界內穿過Yref，則忽略它們；如果被地形遮擋（即超過山頂），則忽略車道點。網絡的總損耗函數如等式1所示。它結合了三個等權損失項：車道檢測（交叉熵）、車道幾何和道路平面估計（L1損失）。

4. Experiments

我們的實驗工作如下。我們首先介紹了生成一個新的合成數據集synthetic-3D-lanes的方法，該方法用於得出本研究的大部分結論。接下來，我們將介紹爲驗證真實圖像而生成的三維車道數據集。使用新提出的三維車道檢測評估方法，我們隨後在兩個數據集上給出結果，包括仔細檢查每個概念在我們整體方法中的貢獻的消融研究。最後，我們將3D LaneNet的純圖像版本與tuSimple基準上現有的最新方法進行了比較[1]。

4.1. Synthetic 3D lane dataset

評估指標。

提出了一種將檢測精度與幾何估計精度分離的三維車道檢測方法。檢測精度是通過精確召回曲線的標準平均精度（AP）來計算的。我們首先計算GT和檢測車道之間的曲線到曲線的距離，作爲點歐氏距離的加權和。我們在一組預先確定的y值上沿曲線測量距離，在0-80米範圍內每80釐米測量一次。對於更遠的點，重量會降低。然後，我們通過在降低相似度的情況下選擇對來執行一對一（曲線）匹配。如果加權距離低於某個相當允許的閾值（1.5米），則認爲匹配是正確的。通過對車道置信閾值的迭代，我們生成了精確召回曲線。對於匹配檢測，我們通過測量用於測量曲線到曲線距離的相同點上的誤差分佈（逐點歐氏距離）來評估幾何估計精度。由於誤差的大小不同，我們進一步將整個數據集劃分爲近距離（0-30m）和遠距離（30-80m）的車道點。然後我們計算每個範圍的1σ誤差，作爲68個誤差百分位，2σ誤差作爲95個百分位。使用此方法分別評估車道中心線和分隔符檢測。與訓練階段一樣，在評估中忽略無關的車道點。

實施細節。

3D LaneNet和本節介紹的所有變體都是使用相同的協議初始化和訓練的。圖像視圖路徑由在imagenet上訓練的VGG16初始化[7]。我們使用Adam優化[17]和初始學習率5·10-4進行訓練。我們使用[32]中描述的循環學習率機制的變化，最小學習率爲10-6。頂視圖表示的y範圍是80米，x範圍是20米。IPM比例尺在x和y上是不同的：在第一個頂視圖特徵圖中，每個像素對應於16cm的橫向（x）和38.4cm的縱向（y）。最後一個俯視圖特徵地圖是×8小，因爲每個柱有一個錨，錨之間的距離是16×8=128cm。我們將K（=6）垂直參考點設置爲y={5,20,40,60,80100}，Yref=20m。

合成三維車道數據集的結果。

測試集上的典型網絡結果如圖2所示，標記了地面真實性。表1的第一行顯示了用於中心線檢測的3D LaneNet的定量結果。合成數據集的一個有效關注點是，它的可變性太有限，學習的網絡會記住整個示例空間，而不是學習概括。事實並非如此，一個積極的跡象是，測試AP（0.952）遠低於列車AP（0.966），幾何評估措施也是如此。所有在燒蝕試驗中訓練的網絡都是從VGG16初始化的，就像3DLaneNet一樣，並且使用相同的訓練參數和次數進行訓練。我們首先通過將雙通道體系結構與替代體系結構進行比較來檢驗其作用。僅圖像視圖版本將圖像視圖路徑直接連接到車道檢測頭，車道檢測頭以Croad格式輸出表示，與3D LaneNet完全相同。在這種情況下，錨定位置XA由上一個特徵映射中的列確定：對於每一列，我們在預先確定的圖像y座標處選取一個像素，並將其投影到俯視圖，以確定與列對應的錨定。

僅頂視圖版本第一次將圖像本身投影到頂視圖，並繼續與頂視圖路徑相同的計算。此外，我們測試了兩個版本，其中包括一個有限版本的雙通道。早期的IPM包括一個單一的雙上下文模塊（全網四個模塊中的第一個）。類似地，後期IPM只包含四個模塊中的最後一個雙上下文模塊。

表1總結的結果表明，與所有其他變體相比，全雙程結構具有更好的性能。特別是，最糟糕的結果是由圖像視圖版本，強調了頂視圖處理路徑的重要性。請注意，後期IPM，包括一個修剪版本的雙路徑，提供了第二個最佳的準確性，但減少了計算成本，使其成爲實時實現的一個很好的候選者。我們還嘗試了道路投影平面的其他定義。一種方法在設置道路平面時考慮了整個場景，而不僅僅是本地道路正常情況。爲了測試它，我們設計了一種地面真值生成算法，該算法將最遠可見的道路點連接到本地道路位置以確定節距。這種方法，在表1中稱爲視界，因爲它類似於視界估計方法。

4.2. Real-world 3D lane dataset

用3D技術獲取地面真實感標記數據是一項需要複雜的多傳感器設置和昂貴的高清地圖的工作。爲此，我們引入了一個新的數據集，3D車道，使用多傳感器設置創建，包括一個前視攝像機、一個Velodine HDL32激光雷達掃描儀和一個高精度IMU，所有這些都是同步和精確對齊的。這些數據是在6個車道上收集的，每個車道在不同的路段上行駛近2個小時。使用Lidar和IMU，我們生成聚合的Lidar俯視圖，如[33]所示，然後與半手動註釋工具一起用於生成地面真相。總共註釋了85K張圖像，其中1K張由一個單獨的驅動器組成，用作測試集，其餘的作爲火車集。激光雷達信息還用於提供每條車道的完整三維曲線。這種方法的一個缺點是，由於距離上的遮擋或分辨率有限，激光雷達看不到的車道從地面上消失了。

因此，如圖2（右欄）所示，標籤有點噪聲。此外，數據集的可變性與合成三維車道數據集相比。因此，我們使用具有完全真實性的合成數據來開發該方法並進行消融研究，而使用真實數據集來驗證該方法對真實數據和定性分析的可傳遞性。

4.3. Evaluation of image-only lane detection

本實驗的目的是將我們的方法與現有的僅用於圖像車道檢測的方法進行比較。tuSimple lane數據集[1]由3626個訓練圖像和2782個測試圖像組成。不幸的是，今天無法訪問測試圖像的標籤。因此，我們將原始訓練集劃分爲我們自己的訓練/驗證集（90%訓練和10%驗證）。雖然我們知道我們的評估（在驗證集上獲得）和測試集上的評估可能存在偏差，但我們可以期望類似的性能，並在定性上得出相同的結論。由於此數據集不包含三維信息，因此我們訓練3DLaneNet的變體，該變體檢測圖像域中的車道。

通過消除高程（zi t）分量，網絡輸出被簡化爲道路投影平面上的二維點，而不是三維表示。僅保留分隔符輸出類型（t=d），因爲數據集中標記的實體是車道分隔符。手動選擇圖像平面和道路投影平面之間的固定單應力HtuSimple，以便在俯視圖中使直車道平行。使用HtuSimple將網絡直接預測的車道轉換爲圖像視圖中的車道。由於HtuSimple是固定的，因此不使用道路投影平面預測分支。

除上述之外，該網絡與合成三維車道數據集所配置的三維車道網相同。tuSimple main evaluation metric（acc）[1]是每個圖像檢測到的地面真實點的平均比率。在我們的驗證集上使用我們的端到端方法，我們達到了0.951的精度，這與tuSimple 2017競爭獲勝方法[27]所達到的精度（0.965）相競爭。考慮到我們的整個方法都是針對三維估計任務而設計的，這個結果是令人鼓舞的，也有些令人驚訝。特別是，我們的幾何損失（公式1）是在俯視座標系下計算的，在實踐中，對遠處車道點的權重要高得多，而在tuSimple acc metric中，所有點的貢獻都相等。

Conclusions

本文提出了一個新的問題，三維多車道檢測，以及一個基於端到端學習的解決方案，3DLaneNet。該方法是用一個新引入的綜合數據集開發的，並在實際數據上得到了驗證。該方法原則上適用於除複雜城市交叉口外的所有駕駛場景。最後，本文相信雙路徑架構可以促進額外的道路上重要的3D估計任務，例如3D車輛檢測。

3D-LaneNet：端到端三維多車道檢測ICCV2019

24GHz和77GHz毫米波雷達技術細節

自動編碼器的評級預測

自然語言推理和數據集

幾何和線性代數算子

使用nGraph的Intel®Xeon®上的高性能TensorFlow

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結