Udacity無人駕駛課程筆記:感知

計算機視覺

對計算機而言,圖像只有紅色、藍色和藍色值的集合。無人駕駛有四個感知世界的核心任務:檢測分類跟蹤語義分割

檢測:找出物體在環境中的位置;

分類:指明對象是什麼;

跟蹤:指隨時間推移觀測移動的物體(如行人、車輛);

語義分割:將特許骯髒的每一個像素與語義類別進行匹配。

 

攝像頭圖像

攝像頭圖像是最常見的計算機視覺數據,圖像中的每一個像素只是一個值,這些值構成圖像矩陣,可以改變像素的值,比如添加一個標量整數改變圖像亮度。

彩色圖像被構建爲值的三維立方體,每個立方體都有高度、寬度和深度,深度爲顏色通道數,RGB圖像深度爲3。

 

LiDAR圖像

激光雷達傳感器創建環境的點雲表徵,提供攝像頭難以獲取的距離或者高度信息。激光點雲可以提高物體許多信息,比如其形狀和表面紋理,通過對點進行聚類和分析,能通過對象檢測、跟蹤或分類信息。

 

機器學習

機器學習涉及使用數據與相關的真值標記來進行模型訓練。

監督學習:提供真值數據;

無監督學習:不提供真值數據;

半監督學習:提供少量真值和大量未標記數據;

強化學習:允許模型通過嘗試許多不同的方法來解決問題,然後權衡哪種方法最成功。

 

神經網絡

人工神經網絡是通過數據來學習複雜模式的工具,神經網絡由大量的神經元組成,人工神經網絡負責傳遞和處理信息,也可對神經元進行訓練。

 

反向傳播算法

一個訓練週期包含三部分:前饋誤差測定反向傳播。首先隨機分配權重值,即神經元,通過神經網絡來饋送每個圖像,產生輸出值,稱之爲前饋;誤差是真值標定與前饋過程所產生輸出之間的偏差;反向傳播通過神經網絡反向發送誤差。

 

卷積神經網絡

CNN屬於神經網絡中的一種,接收多維輸入,包含大多數傳感器數據的二維和三維形狀。CNN通過將過濾器連續劃過圖像收集信息,每次收集信息時,只對整個圖像的一小部分區域進行分析,這稱爲“卷積”。

 

檢測與分類

首先使用檢測CNN來查找圖像中對象的位置,然後將圖像發送給另一個CNN進行分類,也可以使用單一的CNN體系結果對對象進行檢測和分類。

 

追蹤

追蹤在檢測失敗時至關重要,追蹤可以解決被遮擋問題,另外的原因是可以保留身份,障礙物檢測的輸出爲包含對象的邊界框。

追蹤的第一步是通過查找特徵相似度最高的對象,將之前幀檢測到的所有對象與當前幀中檢測到的對象進行匹配;確定使用對象的位置並結合預測算法,以估計在下一個時間步的速度和位置,該預測可識別下一幀中的相應對象。

 

分割

語義分割涉及到對圖像的每個像素進行分類,作用是儘可能詳細地瞭解環境,並確定車輛的可行駛區域。語義分割依賴依賴於一種特殊類型的CNN,被稱爲全卷積網絡或FCN。

 

Apollo感知

對三維檢測,Apollo在高精地圖上使用感興趣區域(ROI)來重點關注相關的對象,將ROI過濾器應用於點雲和圖像數據,以縮小搜索範圍並加快感知,然後通過檢測網絡饋送已過濾的點雲輸出用於構建圍繞對象的三維邊界框,最後使用檢測跟蹤關聯的算法來跨時間步識別單個對象,該算法先保留在每個時間步要跟跟蹤的對象列表,然後在下個時間步中找到每個對象的最佳匹配。Apollo使用YOLO來檢測車道線和動態物體,然後在線檢測模塊會併入來自其他傳感器的數據,對車道線預測進行調整,車道線最終被併入名爲“虛擬車道”單一的數據結構中,同樣,也通過其他傳感器的數據對YOLO網絡所檢測到的動態對象進行調整以獲得每個對象的類型、位置、速度和前進方向,虛擬通道和動態對象均被傳輸到規劃與控制模塊。

 

傳感器比較

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章