麻省理工最新研究:用於運動模糊圖像或攝像機中重建清晰視頻

 

大家在用手機或單反拍照的時候,通常快門設置太長的時候,拍運動物體出來的照片容易產生拖影,如果非藝術拍攝這樣的照片是非常糟糕的。

 

 

麻省理工學院的研究人員最近開發了一種模型,該模型可以恢復從“摺疊”成較小尺寸的圖像和視頻中丟失的寶貴數據。

 

概述

該模型可用於從運動模糊圖像或新的攝像機中重新創建視頻,這些攝像機捕獲人在拐角處的運動,但只能作爲模糊的一維線。儘管需要更多的測試,但研究人員認爲這種方法有朝一日可以用於將2D醫學圖像轉換爲內容更豐富(但價格更高)的3D身體掃描,這可以使貧窮國家的醫學成像受益。

 

捕獲的可視數據通常會將時間和空間的多個維度的數據摺疊爲一維或二維,稱爲“投影”。例如,X射線將有關解剖結構的三維數據摺疊成平面圖像。或者,考慮長時間曝光的恆星在天空中移動的鏡頭:位置隨時間變化的恆星在靜止鏡頭中顯示爲模糊的條紋。

 

描述該模型的論文的第一作者Guha Balakrishnan說:在所有這些情況下,視覺數據都在時間或空間上具有一個維度-完全丟失了。

 

麻省理工學院發明的“轉角攝像機”可以檢測到拐角處的人。例如,這些對於消防員在燃燒的建築物中找到人可能有用。但是這些相機並非完全用戶友好。目前,它們僅產生類似於人的軌跡和速度的模糊,彎曲的線條的投影。

 

研究人員發明了一種“視覺投影”模型,該模型使用神經網絡來“學習”將低維投影與其原始高維圖像和視頻相匹配的模式。給定新的投影,模型將使用所學知識從投影重新創建所有原始數據。

 

在實驗中,該模型通過從與角落攝像機產生的相似的單維線中提取信息,合成了精確的視頻幀,以顯示人的行走情況。該模型還從流行的“移動MNIST”數據集中,從屏幕周圍移動的單個運動模糊數字投影中恢復了視頻幀。

 

 

線索像素

 

Balakrishnan說,這項工作起初是一個“酷反轉問題”,用於重現造成長時間曝光攝影中運動模糊的運動。在投影的像素中,存在有關高維光源的一些線索。

 

例如,捕獲長時間曝光的數碼相機基本上會在一段時間內在每個像素上聚集光子。在捕獲對象隨時間的運動時,相機將獲取運動捕獲像素的平均值。然後,將那些平均值應用於靜止圖像的相應高度和寬度,從而創建對象軌跡的特徵性模糊條紋。通過計算像素強度的一些變化,理論上可以重新創建運動。

 

正如研究人員所意識到的那樣,該問題在許多領域都涉及到:例如X射線捕獲解剖結構的高度,寬度和深度信息,但他們使用類似的像素平均技術將深度摺疊成2D圖像。角照相機-由弗里曼(Freeman),杜蘭德(Durand)和其他研究人員於2017年發明-捕獲隱藏場景周圍的反射光信號,該圖像承載有關人與牆壁和物體的距離的二維信息。然後,像素平均技術會將這些數據摺疊成一維視頻-基本上是在一行中隨時間變化的不同長度的測量值。

 

研究人員基於卷積神經網絡(CNN)建立了一個通用模型-一種機器學習模型,該模型已成爲圖像處理任務的強大動力-可以捕獲有關平均像素中任何尺寸損失的線索。

合成信號

 

在訓練中,研究人員爲CNN提供了成千上萬對投影及其高維信號,稱爲“信號”。CNN會學習與信號中的像素圖案匹配的投影中的像素圖案。爲CNN供電的是一個稱爲“變量自動編碼器”的框架,該框架可評估CNN輸出在某種統計概率上與輸入的匹配程度。由此,模型學習了可能產生給定投影的所有可能信號的“空間”。本質上,這爲如何從投影變爲所有可能的匹配信號創建了一種藍圖。

 

原理

我們的網絡體系結構概述,此處針對2D到3D時空投影任務繪製。

 

 

該網絡具有三個參數化函數:變分後驗分佈的qΨ(···)、先驗分佈的pφ(···)、反投影網絡的gθ(·,·)。z在訓練期間從q網絡中採樣,在測試期間從p網絡中採樣。

對於後驗分佈參數編碼器q,它包含一系列3d跨度卷積算子和一個泄漏的relu激活函數,得到μΨ和σΨ兩個分佈參數。

 

條件a先驗編碼器p由於沒有時間維度信息,而僅具有2d跨度卷積,因此以類似的方式實現。

 

對於反投影函數gθ(x,z),它使用unet類型架構計算x的每個像素特徵。UNET分爲兩個階段:第一階段,使用一系列二維跨度卷積算子來提取多尺度特徵;第二階段,使用一系列二維卷積和上採樣運算來合成X和更多的數據信道。

 

FacePlace的空間投影

 

FacePlace由236種不同的5,000幅圖像組成人。可變性的來源很多,包括

不同種族,多種觀點,面部表情和道具。我們隨機提供了30個人的所有圖像形成測試集。我們將圖像縮放到128×128像素,通過翻譯,縮放和執行數據增強飽和度變化。我們將我們的方法與以下基準:

1.最近鄰居選擇器(k-NN):使用均方誤差距離從訓練數據集中選擇k個圖像,這些圖像的投影最接近測試投影。

1.最近鄰居選擇器(k-NN):使用均方誤差距離從訓練數據集中選擇k個圖像,這些圖像的投影最接近測試投影。

2.與我們方法的投影網絡gθ(x,z)相同的確定性模型(DET),但不包含潛在變量z

3.線性最小均方誤差(LMMSE)估計器,它假定x和y來自分佈X,Y,使得y = EY [y]在x中是線性的:對於某些參數A和b,y = Ax + b。最小化y的期望MSE產生封閉形式的表達式對於p(y | x):

 

所有方法的FacePlace PSNR(垂直投影在頂部,水平在底部,最大信號PSNR(投影估計)在左側,平均投影PSNR在右),並具有100個測試投影的不同樣本量。我們的該方法產生的最大信號PSNR高於所有基線。DET對於一個樣本具有較高的預期信號PSNR,因爲它傾向於在許多樣本上返回模糊的平均值信號。LMMSE具有無限投影PSNR。

 

 

我沒看下他們內部數據集中的四個示例的示例輸出。左列顯示輸入垂直投影。對於每個示例,第一行顯示基本事實序列,而下一行顯示我們方法的使用z = µφ的平均輸出。

 

步行視頻的空間變形

 

我們定性地評估我們的重建方法來自垂直空間投影的人類步態視頻。這個場景對於轉角攝像機具有實際意義,如第2節所述。2.1。我們收集了30個主題的35個視頻每個人在指定區域內步行一分鐘。科目着裝不同,身高(5’2”-6’5”),年齡(18-60)和性別(18m / 12f)。沒有指示受試者走進任何特定的方式,許多人以奇怪的方式走着。所有視頻的背景都是相同的。我們對視頻到每秒5幀,每幀到256×224像素,並將水平平移的數據增強應用於每個視頻。我們選出6個科目進行測試組。我們預測24幀的序列(大約5秒鐘實時)。如下圖所示:

再來看看移動MNIST數據集的樣本輸出。左列顯示輸入投影。對於每個示例,第一行顯示基本事實序列。我們顯示了每個輸入投影通過我們的方法產生的兩個樣本序列:第一個與基本事實的時間方向匹配,第二個則與逆向時間進程合成。

 


總結

在這篇文章中,作者介紹了視覺的投影問題:合成已經沿着一個維度崩潰成一個低維度的觀察,並提出了第一個通用方法圖像和視頻,以及沿這些數據任何維度的投影,解決了任務的不確定性。

 

首先介紹一個概率模型以投影爲條件的原始信號分佈。作者實現了該模型的參數化功能與CNN一起學習每個域中的共享圖像結構,並實現準確的信號合成。儘管從摺疊的維度獲取的信息通常似乎無法從裸露的投影中恢復

顯而易見,但結果表明,許多“丟失”的信息都是可以恢復的。

 

最近研究人員沒有在醫學圖像上測試他們的模型。但是他們現在正在與康奈爾大學的同事合作,從2D醫學圖像(例如X射線)中恢復3D解剖學信息,而無需增加成本,這可以在較貧窮的國家實現更詳細的醫學成像。醫生通常更喜歡3D掃描,例如用CT掃描捕獲的3D掃描,因爲它們包含更多有用的醫學信息。

 

所以這項技術在未來的應用中具有無形的可能性。

相關論文源碼下載地址:關注“圖像算法”微信公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章