內容來源:ATYUN AI平臺
谷歌子公司DeepMind發佈了一種新型計算機視覺算法,可以從2D快照生成場景的3D模型:生成查詢網絡(GQN)。
GQN的詳細信息發表在Science雜誌上,無需任何人工監督或訓練即可“想象”並從任何角度渲染場景。如果只給出一小部分場景的圖片,例如,地板上有一個彩色的球體的牆紙裝飾房間,這個算法可以呈現出相反的、不可見的物體側面,並從多個角度產生一個3D視圖,甚至可以考慮到像陰影中的光線。
它旨在複製人類大腦瞭解其周圍環境和物體之間物理交互的方式,並消除AI研究人員在數據集中註釋圖像的需求。大多數視覺識別系統都需要人員標記數據集中每個場景中每個對象的每個方面,這是一個費時費力的過程。
GQN從靜態圖像中想象出這個迷宮
“與嬰兒和動物一樣,GQN通過嘗試理解從周圍世界觀察到的事物來學習,”DeepMind的研究人員在一篇博客文章中寫道。“在這樣做的時候,在沒有任何人對場景內容的標註的情況下,GQN瞭解了看似合理的場景及其幾何屬性。”
該系統由兩部分組成:表示網絡和生成網絡。前者獲取輸入數據並將其轉換爲描述場景的數學表示(矢量),後者則對場景進行圖像處理。
GQN從2D採樣數據創建可操作的虛擬對象
爲了訓練這個系統,DeepMind的研究人員從不同角度提供了GQN場景圖像,用這些圖像中物體的紋理,顏色和光照以及它們之間的空間關係來進行訓練。然後預測了這些物體的外觀,即看起來是側面還是後面。
利用其空間理解,GQN可以控制物體(例如,通過使用虛擬機器人手臂來拾取球體)。當它在場景中移動時,它會自我修正,當出現問題時它會調整預測。
由GQN設想的另一個3D迷宮
GQN並非沒有限制,它只在包含少量對象的簡單場景中進行了測試,而且它無法生成複雜的3D模型。但DeepMind正在開發更強大的系統,這些系統需要更少的處理能力和更小的語料庫,以及可處理更高分辨率圖像的框架。
研究人員表示,“雖然我們的方法在實踐部署之前還有很多需要完善,但我們相信這項工作對於完全自動的場景理解來說是相當重要的。”
本文轉自ATYUN人工智能媒體平臺,原文鏈接:DeepMind發佈新算法:生成查詢網絡GQN,可將2D照片渲染成3D模型
更多推薦
谷歌詳解對話人工智能Euphonia,更好地識別帶有口音的和不清晰的言語
標籤:
歡迎關注ATYUN官方公衆號
商務合作及內容投稿請聯繫郵箱:[email protected]