雲棲號資訊:【點擊查看更多行業資訊】
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!
想讓機器人像人一樣思考,似乎一直是個難題。
例如,讓智(zhi)能(zhang)機器人去客廳拿個遙控器,結果看到機器人在廚房翻箱倒櫃…
好消息是,這個問題現在被CMU解決了。
CMU研究團隊打造出了一款擁有人類「常識」的導航機器人,讓找東西變得更方便。
這款機器人能利用AI判斷家中最可能找到目標物體的地點,從而儘快找到它。
例如,讓機器人去拿放在「植物」旁邊的遙控器,機器人幾乎立即檢測出了「植物」盆栽所在的位置,從而檢測到遙控器的存在。
項目已被ECCV 2020收錄,並獲得了居住地目標導航挑戰賽的第一名。
一起來看看實現的過程。
讓機器人「學點常識」
事實上,以往大部分採用機器學習訓練的語義導航機器人,找東西的效果都不太好。
相比於人類潛意識中形成的常識,機器人往往有點“死腦筋”,它們更傾向於去記住目標物體的位置。
但物體所處的場景往往非常複雜,而且彼此間差異很大(正所謂每個人的家,亂得各有章法),如果單純以大量不同場景對系統進行訓練,模型泛化能力都不太好。
於是,相比於用更多的樣本對系統進行訓練,這次研究者們換了一種思路:
採用半監督學習的方式,使用一種名爲semantic curiosity(語義好奇心)的獎勵機制對系統進行訓練。
訓練的核心目的,是讓系統基於對語義的「理解」來確定目標物體的最優位置,換而言之,就是讓機器人“學點常識”。
舉個例子,通過理解冰箱和洗手間的差異,機器人就能搞懂目標物體和房間佈局的關係,並計算出最容易找到某個物體的房間。(就像沙發通常會在客廳、而不是在洗手間)
一旦確定了物體最可能出現的地方,機器人就能通過導航,直接去往預計的位置,並快速檢測到目標物體的存在,這個過程被稱之爲探索策略(exploration policy)。
採用Mask RCNN訓練探索策略
如下圖所示,策略的實現被分成了三步:學習、訓練、測試。
首先,採用Mask RCNN對圖像從上至下進行目標預測,用於訓練探索策略,後者負責生成目標檢測和場景分割所需的訓練數據。
對訓練數據進行標記後,數據會被用於微調和評估目標檢測及場景分割的效果。
在目標檢測的過程中,即使面對某一物體的鏡頭轉360度,機器人也必須將之識別爲同一種物體。
這其中最關鍵的一個步驟,在於構造語義地圖。
構造「有魔法的」地圖
從下圖可見,圖像被處理成RGB和Depth兩種模式。
其中,RGB圖像會通過Mask RCNN網絡,用於獲得目標分割預測。
而Depth架構,則被用於計算點雲,其中的每個點,都會在Mask RCNN的預測結果基礎上與語義標籤進行關聯。
最後,基於幾何計算,會在空間中會生成一個三維立體圖。
每一個通道用於表示一種物體類別,原本2D的地圖就會轉變成一個3D的語義地圖。
有了語義地圖,機器人在移動時也能準確地對3D空間進行目標預測了。
「語義好奇心」獎勵機制
不過,這會出現一種情況,如果目標物體在不同的幀上被預測的標籤不同,那麼語義圖中對應這個物體的多個通道都會是1。
如下圖,不同的時間,系統預測的目標標籤可能並不一樣,有時候是牀,有時候則變成了沙發。
這就出現了語義好奇心的策略。
論文定義了語義好奇心累計獎勵(cumulative semantic curiosity reward),指佔語義地圖中所有元素總和的比例。
而語義好奇心獎勵機制,則採用強化學習的方式,目的是使這個比例最大化。
通過了解物體之間的差異、從而瞭解房間佈局,系統就會逐漸理解房間與物體的聯繫。
實驗結果
事實證明,這種方法非常有效。
機器人在訓練過程中,可以專注地去理解目標物體與房間佈局的關係,而非不停地進行路徑規劃。
訓練出的機器人,在人機交互方向上變得更加容易操控。
例如,在各種方法下,即使探索區域不及倒數第二和第三種方法,但語義好奇心仍然檢測出了相當的目標數量。
這說明它在進行目標檢測時,能更專注於所需要探測的物體。
而從下圖可見,語義好奇心明顯發現了更多其他策略無法發現的物體,這對於檢測目標是非常有效的。
在最終的訓練結果中,語義好奇心拿到了最高的39.96分。
這個方法,使得人與機器人之間的交互也變得更加容易實現。
作者介紹
Devendra Singh Chaplot,在卡內基梅隆大學(CMU)讀博,主要研究深度強化學習、以及其在機器人和自然語言處理方向上的應用。
【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/live立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK
原文發佈時間:2020-07-24
本文作者:蕭簫
本文來自:“量子位公衆號”,瞭解相關信息可以關注“公衆號QbitAI”