堅定的純視覺自動駕駛倡導者,特斯拉首席AI科學家是如何解釋這一選擇的?

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"近日,計算機視覺與模式識別大會(CVPR)以線上方式召開了 2021 年自動駕駛(WAD)研討會,特斯拉公司 AI 高級總監 Andrej Karpathy 在會上發表了主題演講,作爲全球最具影響力的自動駕駛探索者之一,特斯拉的技術負責人有何高論?"}]}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"特斯拉自動駕駛有何特別之處?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"相比於人類駕駛員,Karpathy 認爲計算機系統的延遲更低,具有 360 度態勢感知能力,始終全神貫注、不會低頭看手機,而且可以從容應對路上的各種難題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“事實上,全球每天有接近 3700 人死於車禍,人雖然有創造力,但並不善於處理駕駛中的突發難題,且交通運輸的成本也比較高。從根本上說,這事的核心在於人類本身並不擅長駕駛。這一點在無數本沒必要發生的事故中可見一斑。人也不願意長時間開車,只是出於經濟壓力,他們被迫參與到交通運輸中來。當然,我們希望實現交通自動化,並真正讓整個社會從中獲益。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“在攻克自動駕駛難題方面,我們採取了漸進式的研究方法。我們將搭載有 Autopilot 軟件包的汽車出售給客戶,由 Autopilot 軟件持續運行併爲數百萬車主提供主動安全功能及輔助駕駛功能。這一方面給客戶提供了額外的安全性與便利性,另一方面也幫助團隊得以逐步摸索出全自動駕駛功能的實現思路。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Karpathy 還展示了特斯拉自動駕駛功能的重大作用。在演講中,他展示了一段自動緊急制動的視頻——畫面中行人突然衝出,正在穿越十字路口的司機反應不及,好在汽車檢測到了行人並猛踩剎車、順利避免了悲劇的發生。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"接下來的兩段視頻則是踏板誤用緩解(PMM)示例。在第一個示例中,駕駛員正在邊轉彎邊打算停車,但卻錯把油門當成剎車踩了下去。Autopilot 系統啓動,正確識別出行人,之後猛踩剎車。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"“作爲工程師,我們當然希望能儘快推進自動駕駛的普及。實際上,在大部分人口稀少的地區,零干預駕駛已經相當普遍了。”"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"爲什麼特斯拉的自動駕駛不需要激光雷達?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"爲了節省成本,特斯拉堅決拒絕使用激光雷達進行精準測距。"},{"type":"text","text":"2014 年,被稱爲“激光雷達”的激光傳感器成本爲 75,000 美元。雖然之後隨着激光雷達和攝像頭混合技術的進步,成本有所降低,但是使用激光雷達還是會讓特斯拉掙不到錢。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"所以特斯拉選擇依靠計算機視覺(CV,computer vision)實現自動駕駛,利用信息融合的算法來仿真激光雷達的景深測距效果,做起來非常喫力,其性能表現也存在差距。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在 InfoQ 的採訪中,有自動駕駛行業專家曾表示:“自動駕駛離不開激光雷達,圖像技術足夠成熟至少還要十年。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但特斯拉認爲掙錢更要緊,馬斯克還強調:“傻子才採用高清地圖加激光雷達(False and foolish = HD maps and LiDAR)。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"對此,Karpathy 在演講中解釋道,各家廠商必須使用激光雷達傳感器預先繪製環境地圖並據此創建高清地圖。此外,廠商還得添加每一條車道、每個交通燈,這樣在測試期間車輛就可以完全按照地圖到處行駛。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"“我們採取的方案則主要基於視覺元素,車輛可以依靠環繞車身的 8 個攝像頭即時捕捉並理解周邊發生的一切。這樣當我們第一次來到某個十字路口,就需要弄清楚車道在哪裏、每條車道間如何連接、交通燈在哪裏、什麼燈控制什麼車道等,一切都由車輛親自觀察和處理,不需要高清地圖作爲支持。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Karpathy 還解釋道,這無疑是一種更具可擴展性的方法。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“激光雷達和高清地圖這套基礎設施的持續更新會帶來極高的成本,所以我們採用基於視覺元素的方法。雖然視覺自動駕駛技術難度更大,必須依賴高質量、高速度的神經網絡對視頻進行實時處理,但只要順利運轉起來,這就是一套通用型的視覺系統,在原則上能夠適應地球上任何區域的情況。正因爲如此,我們纔在這條道路上堅持不懈地展開探索。”"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"特斯拉的計算機視覺系統"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Karpathy 表示,特斯拉過去幾年構建的視覺系統已經非常出色,因此不再需要其他各類傳感器。"},{"type":"text","text":"攝像頭已經能夠滿足視覺感知方面的大部分需求,因此特斯拉能夠更有信心地逐漸去掉那些已無必要的舊有傳感器裝置。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“三週之前,我們開始發售不搭載任何雷達的汽車。我們移除了雷達裝置,單靠視覺系統指引這些車輛前行。正如馬斯克在推文中所言,「當雷達和視覺系統發生判斷衝突時,你會相信哪一個?視覺系統的精度更高,所以倒不如配合必要的傳感器進一步發掘視覺系統的潛力。」”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"“事實也正是如此,視覺加傳感器的組合在自動駕駛效果上已經遠遠超越了雷達方案。自動駕駛中的元素並不是越多越好,我們需要保留真正有貢獻的元素、去掉經常產生噪聲的元素,這樣才能構建起穩定可靠的解決方案。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“所以,我們決定在純視覺方法的道路上繼續勇往直前。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"此外,特斯拉的自動駕駛團隊積累了 1.5PB 的數據,包括 100 萬段 10 秒長的視頻和 60 億個標註了邊框、深度和速度的物體。但是給這樣龐大的數據集貼上標籤是個巨大的挑戰。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"在開發數據集的過程中,特斯拉團隊發現了超過 200 個觸發點,表明目標檢測需要調整。"},{"type":"text","text":"這些問題包括不同攝像頭之間或攝像頭與雷達之間的檢測結果不一致。他們還確定了可能需要特別注意的情況,比如隧道入口和出口,以及頂部有物體的汽車。特斯拉用了四個月的時間來開發和掌握所有這些觸發器。隨着標籤網絡的改進,它以“影子模式”部署。這意味着它被安裝在消費者的汽車上,靜默運行,而不向汽車發出命令,並將該網絡的輸出與傳統網絡、雷達和司機的行爲進行比較。特斯拉團隊經歷了七次數據工程迭代。他們從一個初始數據集開始,在這個數據集上訓練他們的神經網絡。然後,他們在真實汽車上部署“影子模式”的深度學習,並使用觸發器來檢測不一致性、錯誤和特殊場景。然後對錯誤進行修正,如果需要,還會向數據集添加新數據。卡帕西說:“我們一遍又一遍地重複這個循環,直到神經網絡變得足夠好。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"感興趣的朋友可以點擊下方鏈接查看 Karpathy 的完整演講視頻。("},{"type":"link","attrs":{"href":"https:\/\/www.youtube.com\/watch?v=eOL_rCK59ZI&t=29533s%EF%BC%89","title":"","type":null},"content":[{"type":"text","text":"https:\/\/www.youtube.com\/watch?v=eOL_rCK59ZI&t=29533s)"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果自動標記計算機視覺出現錯誤,上傳後會被手動標註(完全監督學習)。當人類司機退出自動駕駛模式,或者在手動模式下,自動駕駛規劃器與人類駕駛的行車軌跡出現“分歧”(或者令人“驚訝”的情況)時,都會將其標註爲錯誤。使用從人類司機行爲中獲取的低質量標籤,實現照相機數據的自動標註(計算機視覺的弱監督學習)。當計算機視覺神經網絡和人類司機產生“分歧”時(這個分歧也導致了自動駕駛生成了不同於人類司機使用的行車軌跡),訓練樣本會被上傳。針對預測的自動標註。未來事件能夠標註過去的事件,並能顯示預測的錯誤。針對規劃的自動標註。人類駕駛行爲提供了標籤。當自動駕駛還在激活狀態時,如果人類干預了,或者在人類和自動駕駛規劃者之間產生了“分歧”,就會認爲出現了錯誤。預測和規劃是通過計算機視覺方法來追蹤物體軌跡並觀察行駛場景的。計算機視覺錯誤可能會引起預測和規劃失效。所以,爲了使其他部分實現最優運轉,必須修復計算機視覺錯誤。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"反過來說,預測或規劃錯誤可能會觸發視頻剪輯的上傳,即便沒有產生任何計算機視覺錯誤。這類沒有正確標記的視頻剪輯會增加人類手動審查的工作量。因此,減少預測或規劃方面的錯誤能夠節省標註人員的時間,好讓他們聚焦在計算機視覺方法產生的錯誤上。通過改進視頻自動標記的精確度,可以幫助加快計算機視覺功能的進展速度。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特斯拉開發的方法正在儘可能地實現在數據規模擴增時,對人力擴增的需求減到最少,他們的工程師也因此站在了大規模自動駕駛機器學習的最前沿。自動的錯誤標記可以提升標註人員的標註效率。模仿學習的使用減少了工程師投入到路徑規劃算法上的工作量;與其費力地手動編碼每一種駕駛行爲,還不如讓算法從數據中自動學習這些行爲。考慮到特斯拉汽車每月 7.25 億英里的駕駛里程,自動駕駛領域裏還沒有先例能用來判斷特斯拉的方式會有怎樣的效率。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"一些懷疑論者認爲完全解決計算機視覺問題是不可能的。也許是這樣吧。但除非它真的發生了,否則我們無法確定。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"開發一個每 100 英里就失效一次然後需要人類干預的 2 級自動駕駛系統,遠比開發一個每 100 萬英里才失效一次的 4 級或 5 級自動駕駛系統容易得多。儘管特斯拉離全自動駕駛的目標還很遠,但幾乎可以肯定地是,特斯拉將會開發出能夠在城市街道上行駛的 2 級自動駕駛系統。在對未來的展望中,揮之不去的主要問題是,隨着機器錯誤發生得越來越少,司機是會始終保持警惕並在必要時干預自動駕駛機器呢,還是會被引入一種錯誤的安全感呢。特斯拉可能需要實施司機監控系統,確保司機隨時集中注意力。朝向司機安放的照相機和已有的方向盤扭矩傳感器,這兩者的組合可能會比單獨使用扭矩傳感器更加有效。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"對特斯拉來說,超級樂觀的前景是它最終開發出了全自動駕駛系統,部署了機器人出租車。在這樣的局面下,特斯拉的市場份額即使不能十倍地增加,也可以大致增加兩倍或者三倍。稍溫和的樂觀局面是特斯拉爲城市駕駛發佈了 2 級系統,特斯拉也非常棒地賣出了更多汽車和更多的“全自動駕駛”附加組件單元。銷售增長和汽車毛利率是投資者密切觀察的兩項關鍵指標;特斯拉的城市 2 級系統能夠給這兩項指標都帶來超預期的貢獻"}]}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章