點擊下方“AI算法與圖像處理”,一起進步!
重磅乾貨,第一時間送達
上次報道李飛飛是因爲她爲學界爭取到了亞馬遜谷歌雲數據中心。
走在隊伍前面的,是來自斯坦福大學的博士,李飛飛的門生!
先來看看李飛飛團隊這次在arXiv上發表了的論文題目:
強化學習中的泛化(generalization),是指通過不斷跟環境交互,產生出一種網絡的記憶性。
這個網絡能夠根據環境中特定的信號完成相應的動作,經過訓練的agent能夠記住在什麼狀態下要做什麼,還能通過識別狀態的細微差別來採取不同的動作。
再通俗一點,就是在未見過的測試數據上也能夠進行預測。
因此,提升模型的泛化是機器學習領域中的一個重要研究。
特別是視覺強化學習方面,泛化很容易被高維觀察空間中,一些無關痛癢的因素分散了注意力。
針對這個問題,團隊通過魯棒性策略學習,對具有大分佈偏移的未見視覺環境進行零樣本泛化。
因此,團隊提出
「SECANT」模型
,一種可以適應新測試環境的自專家克隆方法(Self Expert Cloning for Adaptation to Novel Test-environments)。
這個方法能夠在兩個階段利用圖像增廣,分離魯棒性表徵和策略優化。
首先,專家策略通過弱增廣從頭開始進行強化學習的訓練。
而學生網絡就是通過強增廣的監督學習來模仿專家策略,其表徵與專家策略相比,對視覺變化更具魯棒性。
實驗表明,SECANT在DMControl(Deepmind Control)、自動駕駛、機器人操作和室內物體導航這四個具有挑戰性的領域中,在零樣本泛化方面超過了之前的SOTA模型,分別實現了
26.5%、337.8%、47.7%和15.8%
的提升。
-
提出了SECANT模型,可以依次解決策略學習和魯棒性表徵學習問題,從而實現了對未見過的視覺環境的強大零樣本泛化性能。
-
在自動駕駛、機器人操作和室內物體導航四個領域中,設計並制定了一套多樣化的基準測試。除了DMControl外,其它3種環境都具有代表實際應用程序的測試時視覺外觀漂移。
-
證明了SECANT在以上4個領域中,大多數任務都能達到SOTA。
SECANT的主要目標是發展自我專家克隆技術,通過這種技術可以實現零樣本生成不一樣的視覺樣本。
作者研究的SECANT訓練模型可以分解爲兩步,代碼已公開。
第一步,作者在原始環境中通過弱增廣訓練了一套高性能的專家策略。在視覺連續控制任務中,這套策略通過前饋深度卷積網絡進行參數化,然後將觀察到的圖像轉化爲d維連續動作向量。
在實際應用中,作者採用了幀疊加技術,在時間信息維度上,連接T個連續圖像進行觀測。然後通過語義保持圖像變換來生成數據擴增的算子。採用隨機裁剪圖像的方法作爲默認的弱增廣方法來訓練專家策略。
這套專家策略可以通過任何標準的RL算法進行優化。作者選擇了Soft Actor-Critic (SAC),因爲它在連續控制任務中被廣泛採用。然後採用梯度下降法對專家參數進行優化,使專家參數最小化。
在第二階段,作者訓練一個學生網絡來預測專家策略採取的最優行動,在同樣的觀察的條件下,通過劇烈變化的圖像來進行測試。
在這個階段不需要進一步接觸獎勵信號。
從形
式上來看,學生策略也是一個深度卷積神經網絡,但與專家策略不同的是它有着不同的架構。
本質上來說,學生策略是根據DAgger模仿流程,從專家策略中延伸而來的。
作者使用專家策略來收集軌跡的初始數據集D。接下來,在每一次迭代中,選擇一個強擴增算子,並將其應用於採樣的一批觀測數據。
作者通過將原有視覺元素進行插入色塊(Cc)、隨機卷積(Cv)、補充高斯噪聲(G)以及添線性混合(M)等方式來生成不同的視覺樣本。
作者還研究了以上的組合,並試圖發現從低頻和高頻結構噪聲中的隨機抽樣產生最佳的總體結果。作者注意到,在混合中添加隨機裁剪略微有利於性能的提升,可能是因爲它改善了學生策略表徵的空間不變性。
四種不同場景的視覺策略泛化基準測試(從上至下):
DMControl Suite、CARLA
、Robosuite和iGibson
首先,作者提出了一個適用於四種不同領域的基準測試,系統地評估視覺agent的泛化能力。
在每個領域中,團隊研究了在一個環境中訓練的算法,在零樣本設置中的各種未見環境中的表現如何。此時沒有獎勵信號和額外的試驗。
在每個任務中,SECANT以之前的SOTA算法爲基準:SAC、SAC+crop、DR、NetRand、SAC+IDM和PAD。
研究團隊依照前人的設置,使用來自DMControl的8個任務進行實驗。
測量泛化能力,隨機生成背景和機器人本身的顏色,將真實的視頻作爲動態背景。
除了一項任務外,SECANT在所有任務中都顯着優於先前的SOTA,
通常高出88.3%
。
所有方法都經過50萬步訓練,有密集的任務特定獎勵。
Robosuite是用於機器人研究的模塊化模擬器。
作者在4個具有挑戰性的單臂和雙手操作任務上對SECANT和先前方法進行了基準測試。
使用具有操作空間控制的Franka Panda機器人模型,並使用特定於任務的密集獎勵進行訓練。
所有agent都接收一個168×168以自我爲中心的RGB視圖作爲輸入。
與之前SOTA相比,SECANT有337.8%的提升
實驗表明,與之前的最佳方法相比,SECANT在簡單設置中獲得的獎勵平均增加了
287.5%
,在困難設置中增加了
374.3%
,在極端設置中增加了
351.6%
。
爲了進一步驗證SECANT對自然變化的泛化能力,作者在CARLA模擬器中構建了一個具有視覺觀察的真實駕駛場景。
測試目標是在1000個時間步長內沿着8字形高速公路(CARLA Town 4)行駛儘可能遠,不與行人或車輛發生碰撞。
agent在「晴朗的中午」情景接受訓練,並在中午和日落時對各種動態天氣和光照條件進行評估。
例如,潮溼天氣的特點是道路具有高反射點。經過平均每個天氣超過10集和5次訓練運行,SECANT在測試中能夠比之前的SOTA行駛的距離增加
47.7%
。
iGibson是一個交互式模擬器,有高度逼真的3D房間和傢俱。
獎勵函數激勵agent使燈在視野中所佔的像素比例最大,當這個比例在連續10個步驟中超過5%時就算成功。
在本測試中,在未見過的房間裏,SECANT的成功率比之前的方法
高出15.8%
。
本文一作是李飛飛門下得意弟子Linxi Fan,他畢業於上海實驗中學,本科就讀於紐約哥倫比亞大學,目前在斯坦福大學攻讀博士,主修計算機視覺、強化學習以及機器人技術。在英偉達實習期間完成了本論文。
本文二作黃德安同樣師從李飛飛,本科畢業於國立臺灣大學,獲得了卡內基梅隆大學碩士學位。目前在斯坦福大學計算機科學專業攻讀博士學位,在NVIDIA做泛化學習類研究。
三作禹之鼎也是來自NVIDIA的科學家,獲得華南理工大學電機工程聯合班學士學位、香港科技大學電子工程學士學位,2017年在卡內基梅隆大學獲得了ECE博士學位。
2018年加入英偉達,現在是英偉達機器學習研究組的高級研究科學家。
參考資料:
https://arxiv.org/abs/2106.09678
下載1:何愷明頂會分享
在「AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!
在「AI算法與圖像處理」公衆號後臺回覆:
CVPR
,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮 ,告訴大家你也在看