Facebook的AI從視頻素材中學習物理位置之間的關係

通常,計算機視覺系統擅長檢測物體,但卻很難理解這些物體所處的環境。這是因爲它們將觀察到的行爲與物理環境分開了——即使是那些做了模型環境的系統也無法區分與行爲相關的元素和不相關的元素(例如,櫃檯上的砧板與隨便一塊地板)。

本文最初發佈於VentureBeat,經原作者授權由InfoQ中文站翻譯並分享。

在一段第一人稱視頻中,Ego-Topo構建了一個環境的拓撲地圖,揭示了活動中心區域以及它們被訪問的順序。(圖片來源:Facebook)

通常,計算機視覺系統擅長檢測物體,但卻很難理解這些物體所處的環境。這是因爲它們將觀察到的行爲與物理環境分開了——即使是那些做了模型環境的系統也無法區分與行爲相關的元素和不相關的元素(例如,櫃檯上的砧板與隨便一塊地板)。

這就是爲什麼德克薩斯大學和Facebook AI Research的一組研究人員在論文Ego-Topo(該技術將從視頻中捕捉到的空間分解成活動的拓撲地圖,然後將視頻組織成對不同區域的一系列訪問)中對此進行了研究。將場景重組爲“訪問”而不是一系列的鏡頭,他們斷言,Ego-Topo能夠推斷第一人稱行爲(例如,一個人未來最可能採取什麼行動?)和環境本身(例如,在一個特定的區域裏有哪些可能的對象交互,即使尚未觀察到的?)。

“我們的……[模型]比上面討論的已有模型有優勢……[I]提供了對過去的簡潔的空間結構再現,[與]‘純3D’方法不同,我們的地圖是根據人們對空間的使用有機地定義的。”

Ego-Topo利用一個人工智能模型,它使用一個空間從視頻中發現人們經常訪問的地方,基於共享的物理空間和區域所提供的功能(與物理位置無關),按時間連接這些畫面。(例如,視頻開始時的洗碗機可能連接到結束時的同一臺洗碗機,而廚房中的垃圾桶可能連接到另一廚房的垃圾處理機。)一組單獨的模型利用生成的圖來揭示環境的可用性,並在長視頻中預測未來的動作。

跨多個區域的連接空間(例如,來自多個廚房的視頻)有助於對環境及其功能用途的綜合表示,這樣,Ego-Topo就能分析出環境的哪些部分與人類活動相關,以及這些區域的活動如何實現特定的目標。例如,給定一個廚房,即使不是每個視頻都訪問了廚房的所有部分,Ego-Top也可以跨不同的視頻進行連接,創建一個廚房的組合地圖,說明這個永久化物理空間的用途。此外,它還可以連接多個廚房的區域,創建綜合的地圖,顯示不同廚房之間的關係。

在實驗中,該團隊在兩個關鍵任務上展示了Ego-Topo:以一個新的視角推斷可能的對象交互以及預測完成一個長期活動所需採取的行動。爲了評估其性能,他們在EGTEA Gaze+(其中包含32個主體在一個廚房裏按照7個食譜準備一道菜的完整過程)和EPIC-Kitchens(由日常廚房活動的視頻,不侷限於單一食譜或對象)上訓練底層模型。

他們報告說,與基準相比,Ego-Topo在所有預測層面上的表現都更好,而且它在預測遙遠未來的行動方面表現出色。此外,他們還表示,將行動與模型拓撲圖中發現的區域連接起來,可以得到進一步的改進,還可以根據其在綜合圖中的功能對空間進行對齊——特別是對於僅與單個位置相關的罕見類別。

“我們的方法最適合於(第一人稱)視頻中的長期活動,在這種活動中,區域會隨着時間的推移以多種方式被反覆訪問和使用。這一定義廣泛適用於常見的家庭和工作環境(如辦公室、廚房、零售店、雜貨店),”研究人員寫道。“這些任務說明了一個能夠成功推斷場景功能的視覺系統將如何爲增強現實(AR)和機器人技術的應用提供幫助。例如,如果一個AR系統知道在環境中哪些地方可以進行操作,那麼它就可以通過教程以交互的方式指導用戶;一個能夠通過視頻學習人們如何使用區域的移動機器人將可以在沒有大量探索的情況下做好行動準備。”

英文原文:Facebook’s AI learns the relationships between physical places from first-person video footage

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章