一種從單個圖像進行深度推斷的近似形式的迭代算法(論文2010)

A Close-Form Iterative Algorithm for Depth Inferring from a Single Image

可下載原文:https://cn.bing.com/academic/profile?id=70e9b1bbd0fb28ba591336f01edd2e3e&encoded=0&v=paper_preview&mkt=zh-cn

聲明:自己的學習筆記

摘要:

從單個圖像中推斷深度是計算機視覺中的一個難題,需要充分利用圖像中包含的單眼信息。受saxena等人工作的啓發,本文提出了一種閉式迭代算法,將多尺度圖像分割和深度推斷交替進行,可以顯著提高分割和深度估計的效果。首先,採用基於em的算法得到初始的多尺度圖像分割結果。然後,利用多尺度馬爾可夫隨機場(mrf)模型,通過有監督學習,推導出不同圖像區域的深度和深度之間的關係。其次,應用基於圖的區域合併算法,通過合併推斷深度,在更大的尺度上合併分割。最後,將多尺度圖像分割結果作爲mrf模型的輸入,並對深度進行了重新推斷。上述過程反覆進行,直到達到預期結果。由於在迭代過程中,在最細尺度上分割沒有變化,它仍然可以捕捉到詳細的三維結構。同時,在其他尺度上進行細化分割,將有助於獲得更多的全局結構信息。對比實驗結果驗證了該方法的有效性,該方法可以對saxena數據庫中的134幅圖像中的62.7%進行定量的深度估計。該方法還可以提高圖像分割結果的場景解釋能力。此外,本文還對該方法進行了擴展,用以估計具有前向目標的景深。

關鍵字:深度推斷、單目線索、圖像分割、馬爾可夫隨機場、場景重建。

一、介紹

從單個圖像中推斷三維場景結構是計算機視覺中一個極具挑戰性的課題,因爲從數學意義上講,這是一個不適定問題,我們永遠無法知道圖像是繪畫圖像還是實際三維環境的圖像。然而,人們並不難從一幅圖像中推斷出場景結構。在這裏,人們利用單眼深度線索來推斷3d信息,其中包括一些物理現象以及對象的特徵,如光照和明暗處理、透視、遮擋、紋理漸變等。

在最近的研究中,研究人員利用這些線索從一幅圖像中獲取一些3d信息。Saxena等人[1,2,3,4,5]提出了一種基於多尺度單目圖像特徵推斷深度的馬爾可夫隨機場模型,並將單目深度感知應用於遙控汽車的自主駕駛。霍伊姆等人[6,7,8]在強烈假設場景由地面/水平面和垂直牆(可能還有天空)組成的情況下,使用紋理和透視線索構建彈出模型。基於此,Hoiem等人[9]還提出了一個封閉形式的框架,集成了表面方向、遮擋邊界和目標識別,開發了一個三維場景理解系統。但是這種方法不能應用於許多場景,這些場景不僅僅由豎立在水平面上的垂直面構成,比如山、樹、屋頂等等。

爲了提高深度推斷的精度,本文提出了一種閉式迭代算法。在Hoem等人的SouxENA等人的工作中,在假設3D場景由多個小平面構成的前提下,從圖像的過分割近似推斷出深度。這意味着圖像分割和深度推斷是相互關聯的。圖像分割有助於推斷不同圖像區域深度之間的關係。另一方面,深度也可以作爲一個額外的屬性來改進分割結果。我們的算法利用了這種互相關特性,交替進行圖像分割和深度推斷。
正如Saxena等人的工作中所提到的,局部圖像特徵不足以估計深度,必須使用多尺度圖像特徵來捕獲更多的全局屬性。因此,我們採用基於em的多尺度圖像分割算法來獲得初始分割結果。從多尺度分割中提取的圖像特徵向量用於推斷圖像中每個像素的不同深度。推斷出的深度被反饋並與圖像分割集成到一個認知迴路中。特別值得注意的是,深度推斷是針對最細尺度上的分割區域,而區域合併則是針對較大尺度上的區域。該方法不會減少由三維場景結構組成的面片數量,能夠捕捉到豐富的細節三維場景結構。同時,在較大尺度下的精細分割可以在多個空間尺度上獲得更多的全局結構信息,提高深度推斷的精度。上述過程反覆進行,直到達到預期結果。

通過使用這種緊密形式的迭代框架,我們的算法可以顯著提高深度估計的結果。與現有的方法相比,我們的算法可以爲134個測試圖像中的62.7%個提供更清晰的深度圖。使用我們算法的3d-fiythrough重建結果在視覺上也更令人滿意。另外,我們的方法可以在場景解釋的意義上提高圖像分割的效果。
此外,我們還考慮了具有前向對象的場景的深度推斷問題。在前向目標垂直於地面的假設下,從圖像中提取前向目標區域,並對這些區域的深度推斷進行單獨處理。在其他區域也被處理之後,深度估計被合併在一起。

本文的其餘部分安排如下。相關工作將在第2節中進行審查。第三節介紹了該算法的概況。第4節描述了閉式迭代算法。實驗結果見第5節。在第7節結束之前,第6節說明了具有前向對象的場景的深度推斷方法。

二、相關工作

在某些特定的場景中,單目線索被應用於執行從單個圖像進行深度推斷的任務。許多研究者已經研究了相應的問題並提出了一些有效的方法,包括從紋理中提取形狀(sft)[11,12]、從陰影中提取形狀(sfs)[13,14]和進入圖片(tip)[15]。與傳統的基於特徵匹配和三角剖分的幾何方法如立體視覺[16]和運動形狀[17]不同,這些方法利用圖像中包含的線索來獲取豐富的三維信息。然而,這些方法往往忽略了額外的有用線索,並強制要求場景結構簡單統一,因此只能在有限的環境中應用。例如,tip方法只能在完全結構化的環境中使用。
近年來,單目線索在獲取三維信息方面取得了很大的進展。基於環境是由地面垂直結構構成的假設,Delage等人[18]和Hoiem等人[6,7],通過將圖像分爲水平/地面和垂直區域(也可能是天空),構建了一個簡單的彈出式三維模型。Delage考慮的是室內圖像,而Hoiem考慮的是室外場景。基於這些概念,Hoiem等人[10]和Sudderth等人[19]將基於學習的對象識別與三維場景重建集成;Hedau等人。[8]提出了一種恢復雜亂房間空間佈局的算法。Saxena等人[1,2,4,5]提出了一種從單眼圖像線索推斷深度的算法。該算法還成功地應用於提高立體視覺[3]和遙控車自主導航[20]的性能。海茨等人。[21]開發了級聯分類模型(ccm),該模型將場景分類、目標檢測和三維重建等一系列相關子任務結合在一起,這些任務可以在自己的層次上得到解決並相互幫助。霍伊姆等人[9]將圖像的表面方向、遮擋邊界和目標識別作爲圖像的內在特徵,提出了一個封閉的場景分析過程接口框架。

我們的工作類似於Heitz等人和Hoiem等人的工作,將圖像分割和深度推斷的任務結合起來。然而,他們的工作傾向於圖像理解,而不是深度推斷,他們的算法包含許多步驟,包括目標檢測,區域標記等等。此外,它們的算法是基於迭代訓練,它需要知道每一步的實現,而我們的算法不需要再訓練,並且更靈活地應用在諸如機器人導航的一些特定應用中。

三、我們算法概述

我們提出的算法的概述如圖1所示。主要包括圖像分割、深度推斷和區域合併三個模塊。我們的輸入數據是多尺度圖像分割,由基於em的算法在不同尺度下獲得。從這些多尺度分割中,首先通過模板提取圖像特徵向量。然後,利用多尺度馬爾可夫隨機場,通過有監督學習,建立圖像特徵向量與不同深度圖像區域之間關係的最優模型。然後將推斷出的深度反饋到三維結構中,以合併更大尺度的圖像分割。結合最細尺度下的初始分割,得到了精細的多尺度分割結果。在達到預期的深度推斷結果之前,重複上述過程。
在這裏插入圖片描述
這三個模塊集成在一個認知迴路中。對於每幅圖像,區域合併模塊接收來自另外兩個模塊的初始分割和深度信息,並反饋經過改進的多尺度分割。因此,模塊交換有助於彌補其個別缺點和提高整體系統性能的信息。我們的算法流程將在以下部分詳細介紹。

四、我們算法的框架

4.1.多尺度圖像分割

與hoiem等人和saxena等人的工作一樣,我們的算法也從將圖像分割成許多這樣的小平面開始。爲了捕捉深度線索直接從局部結構的亮度模式的單目圖像,我們使用期望最大化圖像分割算法[22],獲得初始分割結果。該算法能有效地解決從低層圖像特徵到曲面重建之間的鴻溝。由於算法的內部工作範圍,我們沒有詳細解釋著名的算法,但限制了對算法具體應用的介紹。

創建圖像的多尺度分割需要三個步驟。(1)爲每個像素選擇適當的比例,然後在選定的比例上提取該像素的顏色、紋理和位置特徵。(2)通過使用期望最大化的高斯混合模型來模擬像素特徵的分佈,將像素分組成區域。(3)在多個空間尺度上重複上述兩個步驟。

在這種圖像分割算法中,像素由8個值組成:顏色3個,紋理3個,位置2個。三種顏色分量是實驗室顏色空間的座標,其大致上是均勻一致的,並且距離是有意義的。這三個紋理分量是極性、各向異性和每個像素的對比度,在選定的比例下計算。各向異性和極性都是由對比度調製的,因爲它們在低對比度區域沒有意義。圖像中像素的位置也包含在特徵向量中,可以描述圖像的空間分佈。

然後,應用期望最大化(EM)算法將像素分割成貼片。由於圖像經過特徵提取後可以看作是八維特徵空間中的點,因此分割問題轉化爲將這些點分成若干組。因此,EM算法被用來確定最大似然參數通過假設K高斯混合模型的特徵空間。爲了避免分割不足,我們選擇了一個相當大的值k,其中k=256用於1024x768大小的圖像。

爲了從圖像中獲取更多的全局結構特性,在三種不同尺度(圖像分辨率,分別爲實驗中原始分辨率的1倍、3倍和9倍)下對圖像進行了分割。區域合併後,兩個尺度上的分割將被細化後的分割所代替。示例結果如圖2所示。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
4.3區域合併

區域合併是算法的核心部分。如圖1所示,區域合併模塊的輸入是推斷深度和初始圖像分割結果,輸出是兩個較大尺度上的精分割。利用該模塊,我們的算法可以捕捉到非近鄰的斑塊深度之間的強交互作用。例如,考慮位於大型建築上的補丁,它們的深度相同。然而,由於特徵空間(如建築物牆上的窗戶)中存在不連續性,一些相鄰的面片很難識別爲同一對象的一部分。當深度信息反饋時,相鄰的面片趨於融合,不連續性被消除。然後,根據MRF模型,斑塊的深度將高度相關。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

五、實驗

爲了驗證我們的方法的有效性,我們進行了對比實驗,將我們的算法與Saxena等人的[2,5]和Hoiem等人的工作[10]進行了比較。我們從Saxena的主頁上下載了534張圖片,其中400張用於訓練模型。其餘134幅圖像用於定量比較,其餘150幅互聯網圖像用於定性比較。

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
與Saxena等人的工作和地面真實情況相比,推斷深度圖如圖5所示,典型場景重建結果如圖6所示。如圖6中圖5中第2行的第3圖像和圖6中第4行的第2圖像所示,由於使用深度信息,圖像中的遠處區域的細節被任意地重構爲均勻的細節。雖然區域合併只是在更大範圍內作用於區域以改善這種情況,但這種情況有時仍然會發生。然而,總的來說,使用封閉形式的迭代框架得到了比以前更好的重建結果

作爲該算法的副產品,還得到了包含深度信息的圖像分割結果。最大尺度下的典型圖像分割結果如圖7所示。從場景結構解釋的角度來看,經過1-3次迭代,分割效果越來越好。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
六、前景物場景重建

如上所述,具有相似特性的像素的每個分割區域表示場景中的相干區域。因此,當場景中有前置對象時,它有時會失敗。示例如圖8(a)所示。凳子位於後牆的前面,顏色和質地相似。在圖8(b)所示的推斷3d場景中,凳子和後牆連在一起,這顯然是不對的。

在地面假設下,提出了一種解決上述問題的方法。實際上,前視物體最有可能是在地面上,而不是在地面上,尤其是在室內環境中。所以我們首先在圖像中找到地面區域。根據初始場景重建結果,可以很容易地提取出地面區域的邊緣,並將其表示爲一組直線l1、l2、ln。然後將l1、l2、ln包圍的像素標記爲基帶。至於圖像中的前目標區域,它很可能與地面區域相交,而不是包含在其中。因此,如果一個區域只有一部分像素標記爲地面區域,則可以將其視爲前目標區域。提取前向對象的例子如圖8(c)所示,黑線是地面區域的邊緣,紅色塊是前向對象。

然後分別對前向目標區域和剩餘區域進行處理。至於前面的物體,可以假定它垂直於地面,因爲沒有更多關於它的信息。基於這一假設,根據射影幾何對深度進行了預測。至於其餘區域,可通過第4節所述方法推斷深度。最後將場景重建結果合併在一起。實驗結果如圖8所示(d,e,f)。
在這裏插入圖片描述
七、總結

近幾十年來,從立體、運動等“三角剖分”線索出發,在深度推斷和場景重建方面取得了很大的進展。然而,這項工作絕大多數只使用了幾何線索,而忽略了圖像中包含的其他深度線索,如紋理、顏色、散焦等。相比之下,最近對單目深度知覺的研究,如Saxena等人和Hoiem等人的工作,是對計算機視覺的有益補充。

在這些工作的啓發下,本文提出了一種利用圖像分割和深度推斷的相關性的閉式迭代算法。該算法通過交替迭代處理,可以顯著改善分割和深度推斷。我們的算法首先通過基於em的算法得到初始分割結果。然後,利用多尺度馬爾可夫隨機場,通過有監督學習訓練,建立特徵向量與不同深度之間的關係模型。在推斷出每個像素的深度後,反饋到較大尺度上對分割結果進行細化。該方法可以在不減少由三維場景結構構成的面片數量的前提下,獲得更多的全局結構信息。上述過程反覆進行,直到達到預期結果。實驗結果證明了算法的有效性。此外,本文還擴展了該方法來處理具有前向對象的景深推斷問題。我們相信我們的算法可以應用於其他許多視覺應用,如機器人導航、建立城市環境的三維模型和目標識別。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章