Structural Consistency and Controllability for Diverse Colorization_ECCV_2018

論文下載:Structural Consistency and Controllability for Diverse Colorization_ECCV_2018

摘要

對給定的灰度圖像進行着色是媒體和廣告業的一項重要任務。由於顏色化固有的模糊性(許多着色通常是合理的),最近的方法開始顯式地建模多樣性。然而,現有方法獨立對於每一個像素預測色度,很少考慮結構不一致這一最明顯的缺陷。爲了解決這個問題,論文開發了一個基於條件隨機場的變分自動編碼器公式,它能夠在考慮結構一致性的同時實現多樣性。此外,論文引入了一種可控性機制,它可以包含來自不同來源的外部約束,包括用戶界面。與現有基線方法相比,論文的方法在LFW、LSUN Church和ILSVRC-2015數據集上獲得了更加多樣化和全局一致的着色。

引言

圖像的彩色化需要預測所提供的灰度輸入的兩個缺失通道。與其他計算機視覺任務(如單目深度預測或語義分割)類似,顏色化是不適定的。然而,與上述任務不同的是,顏色化也是模棱兩可的,也就是說,許多不同的着色都是完全合理的。例如,不同顏色的襯衫或汽車是非常合理的,而正面色調的多樣性肯定較少。捕捉這些微妙之處是一個非常重要的問題。
因此,早期的着色工作是交互式的,需要一些參考彩色圖像或塗鴉。爲了使這一過程自動化,經典的方法將任務描述爲一個預測問題,使用有限大小的數據集。最近的深度學習方法被證明可以在更大的數據集中捕捉更復雜的顏色屬性。然而,所有這些方法都有一個共同點,就是對給定的灰度圖像只進行一次着色。因此,模糊性和多模態往往沒有得到充分的建模。爲此,甚至最近,使用生成建模技術(如變分自動編碼器、生成對抗網或自迴歸模型等)描述了用於着色的不同輸出空間分佈。
雖然基於生成技術的方法可以通過捕捉數據集分佈來生成不同的顏色,但它們通常缺乏結構一致性,例如襯衫的某些部分顏色不同或汽車有斑點。不一致是由於這樣一個事實,即結構連貫性只在使用基於深網的生成方法時才被隱含地鼓勵。此外,現有的各種着色技術也常常缺乏一種可控性,允許在保持結構一致性的同時進行干擾。
爲了解決一致性和可控性,論文提出的方法用高斯-馬爾可夫隨機公式來增強變分自動編碼器的輸出空間。論文以一種端到端的方式進行訓練,能夠顯式地建模圖像中多個像素之間的結構關係。除了學習像素之間的結構一致性之外,論文還開發了一個包含外部約束的控制機制。這使得用戶可以使用彩色標記與生成過程進行交互。論文在野外(LFW)、LSUN Church和ILSVRC-2015數據集上展示了視覺上吸引人的結果,並通過用戶研究評估了照片真實性方面。

高斯條件馬爾可夫隨機場

馬爾可夫隨機場和它們的條件計數器部分是一個令人信服的工具,可以從理論上對變量之間的相關性進行建模,因此它們非常適合於我們感興趣的着色任務,因爲我們對不同像素之間的顏色依賴性很感興趣。然而,在大輸出空間上經典馬爾可夫隨機場中最有可能構形的推斷在計算上要求很高,並且只有在少數特殊情況下才可處理。

高斯-馬爾可夫隨機場代表了其中一種允許有效和精確推斷的情況。它們將數據的聯合分佈(例如,圖像的雙色通道的像素值)建模爲多變量高斯密度。高斯-馬爾可夫隨機場過去被用於不同的計算機視覺應用,包括語義分割、人體部分分割和顯著性估計、圖像標記和圖像去噪。論文使用完全連通的高斯條件隨機數,並用一個深度網絡進行端到端的參數學習。除了結構上的一致性,論文的目標是聯合建模模糊性,這是着色任務的固有部分。爲此,論文使用可變的自動編碼器。

可變自動編碼器

變分自動編碼器(VAEs)和條件變量(conditional VAEs,CVAEs)被用來模擬各種任務中的模糊性。它們基於流形假設,即高維數據點(如彩色圖像)可以基於低維嵌入和一些輔助數據(如灰度圖像)進行建模。形式上,假設了低維嵌入空間的存在性和通過條件p_θ (x|z,g)的變換。給定一個包含一對條件信息g和期望輸出x的數據集D,即,給定D={(g,x)},CVAEs通過考慮以下恆等式,得出條件對數似然ln⁡〖p_θ (x|g)〗的最大化:
在這裏插入圖片描述(1)
這裏,D_KL (∙,∙)表示兩個分佈之間的Kullback-Leibler(KL)散度,並用q_∅ (z|x,g)來近似模擬條件p_θ (x|g,z)的深度網絡的難處理後驗p_θ (z|x,g)。後驗函數的近似值,即q_∅ (z|x,g)被稱爲編碼器,而用於重構的深度網絡,即用於建模條件p_θ (x|g,z),通常稱爲解碼器。

由於KL散度是非負的,當考慮上式中給出的恆等式的右側時,得到了數據對數似然ln⁡〖p_θ (x|g)〗的一個下界。CVAEs最小化這個下界的否定版本,即
在這裏插入圖片描述(2)
其中期望等式E_(q_ϕ (z|x,g))通過N個樣本z^i~q_ϕ (z|x,g)近似。爲了簡單起見,論文忽略了數據集D中樣本的求和,並提供了訓練單個對(x,g)的目標。

方法概述

論文提出的彩色化模型具有以下幾個吸引人的特性:(1)多樣性,即它爲單個灰度圖像生成多樣化和逼真的着色;(2)全局一致性,通過使用全連通高斯條件隨機場(G-CRF)顯式地建模生成的顏色字段的輸出空間分佈來實現;(3)可控性,即模型可以在運行時有效地考慮外部約束。例如,用戶可以強制給定的對象具有特定的顏色,或者強制兩個分離的區域具有相同的着色效果。

在這裏插入圖片描述
圖1. 一種基於全連通高斯條件隨機場(G-CRF)的可變全局相干着色VAE。爲了產生不同的顏色,我們使用混合密度網絡(MDN)來表示給定灰度圖像g的彩色圖像嵌入z的多模分佈。在測試時,我們對隨後解碼的多個嵌入進行採樣以生成不同的着色。爲了保證全局一致性,我們使用G-CRF對解碼器的輸出空間分佈進行建模。

圖1展示了方法的概述。給定一個像素爲P的灰度圖像g,論文的目標是在Lab顏色空間中生成由兩個通道x_a∈RP和x_b∈RP組成的不同顏色場x∈R^2P。此外,我們在全局範圍內加強空間相干性,並使用高斯-馬爾可夫隨機場來模擬輸出空間分佈,實現可控性。

爲了產生多種着色效果,我們需要學習給定灰度圖像g的色域x的多模條件分佈p(x|g)。但是,學習這個條件是一個挑戰,因爲顏色場x和強度場g是高維的。因此,用於學習p(x|g)的訓練樣本稀疏分散,即使使用大型數據集也很難捕捉到分佈。因此,我們假設流形假設成立,我們選擇學習一個條件p(x|z,g),基於從x和g捕獲的低維嵌入z,使用一個可變的自動編碼器,通過編碼器來近似難處理的後驗p(z|x,g)。Deshpande等人。論文選擇了一個多階段的培訓程序,直接從p(z|g)中取樣。

在這裏插入圖片描述
圖2. 模型架構和培訓過程概述。在第一個訓練階段,論文使用VAE學習以灰度圖像g爲條件的色域x的低維嵌入z。爲了從結構上區分顏色,論文首先在階段1中學習一元項B,然後在階段2中學習通過施加約束,即強度相似的像素應具有相似的定植度,對圖像的結構進行編碼的精度矩陣。爲了實現可控制性,論文使用矩陣H中指定的訓練計劃來逐步掩蓋一元項B中的解碼像素顏色,因此逐漸依賴A矩陣從一元項中恢復着色。在第二個訓練階段,論文使用MDN來學習給定灰度圖像的潛在嵌入的多模式分佈。

爲了捕獲低維嵌入,在第一個訓練階段,給定灰度圖像g和彩色圖像x,論文使用一個變分自動編碼器來學習彩色嵌入z的參數化單峯高斯編碼器分佈q_ϕ (z│x,g)~N(μ_ϕ,σ_ϕ^2 I)(如圖2(a))。同時,我們學習了譯碼器p_θ (x|z,g)的參數θ。

重要的是,編碼器q_θ (z|x,g)在映射到潛在表示z時同時利用了彩色圖像x和灰度強度g。由於使用了彩色圖像,論文期望可以使用單峯分佈(即,論文使用高斯分佈)來捕獲該映射。

然而,在推理過程中,可以從灰度圖像g中獲得多種顏色。因此,當只對灰度圖像g進行處理時,論文並不期望單峯分佈p(z|g)在測試中是準確的。

爲了解決這個問題,在第二個訓練階段,論文訓練混合密度網絡(MDN)p_ψ (z|g),以最大化從q_ϕ (z|x,g)採樣的嵌入z的對數可能性(如圖2(b))。直觀地說,對於灰度圖像,MDN可以預測對應於不同顏色化的M高斯分量的參數。在第一階段學習到的嵌入z隨後被綁定到這些組件中的一個。其餘部分採用近距離灰度圖像嵌入法進行優化。

在測試時,從MDNp_ψ (z|g)中採樣N個不同的嵌入〖{z}〗_(k=1)^N,並由解碼器轉換成不同的着色,如圖1所示。爲了鼓勵全局一致着色並確保可控性,論文使用一個完全連通的G-CRF層來模擬輸出空間分佈。G-CRF後面的負對數具有二次能量函數的形式:
在這裏插入圖片描述 (3)

它捕捉a和b通道像素顏色之間的一元和高階相關(HOC)。直觀地說,聯合G-CRF使模型能夠捕獲更多的全局圖像統計信息,從而產生更多的空間相干着色。一元項B_(z,g)從VAE解碼器獲得,並對每像素的顏色進行編碼。HOC術語A_g=f(A_g^T A_g)負責對輸入圖像的結構進行編碼。它是低階像素嵌入A_g的內積函數,從灰度圖像中學習並測量像素強度之間的成對相似性。直覺是具有相似強度的像素應該有相似的着色。HOC術語在測試時獲得的不同着色之間共享。除了全局一致性之外,它還通過正確傳播以一元術語編碼的用戶編輯來實現可控性。由於HOC項的對稱性,二次能量函數具有唯一的全局最小值,可通過求解線性方程組獲得:
在這裏插入圖片描述(4)
隨後,爲了簡單起見,論文去掉了A和B對g和z的依賴關係。

推論

爲了確保全局一致的着色,論文利用圖像的結構。爲此,論文鼓勵兩個像素在亮度相似的情況下具有相似的顏色。因此,論文希望最小化a和b通道的顏色場x與相似像素處顏色的加權平均值之間的差異。更正式地說,論文想要鼓勵等式x_a=S ̂x_a和x_b=S ̂x_b,其中S ̂=softmax(A^T A)是通過對A^T A生成的矩陣的每一行應用softmax函數得到的相似矩陣。爲了簡化,論文使用塊結構矩陣S=diag(S ̂,S ̂)。

除了捕捉結構之外,論文還通過對計算出的一元項B中的用戶輸入進行編碼來獲得顏色先驗和可控性。因此,論文添加了約束Hx=α,其中H是一個對角線矩陣,其中0和1項對應於像素的值是否由用戶指定,以及一個對每個像素的顏色進行編碼的向量應設置爲α。
根據上述直覺,論文得到了要最小化的二次能量函數:
在這裏插入圖片描述
β是一個超參數。這對應於1/2 x^T Ax+Bx+C形式的二次能量函數,其中A=(S-I)^T (S-I)+βH^T H,B=-2βα^T H和C=βα^T α。很明顯,一元術語只編碼顏色統計信息,而HOC術語只負責結構的一致性。直觀地說,條件p_θ (x|g,z)被解釋爲高斯多變量密度:
在這裏插入圖片描述(5)
由上述能量函數E_(θ,g,z)參數化,可以很容易地證明A是一個正的負全秩矩陣。因此,對於嚴格正定矩陣,推理可簡化爲求解線性方程組:
在這裏插入圖片描述 (6)
論文利用矩陣的LU分解來求解上述線性系統。

學習

圖2表示訓練的兩個階段,以確保顏色和結構的分離,併產生不同的着色效果。論文還討論了在每個階段對公式2中給出的損失的修正。

第1階段:訓練結構化輸出空間可變自動編碼器:
在第一個訓練階段,論文使用變分自動編碼器公式來學習給定顏色的低維嵌入。這一階段分爲兩個階段,以確保顏色和結構的脫節。在第一階段,論文學習VAE解碼器產生的一元項。在第二階段,論文確定了除了解碼器的兩個最頂層之外的VAE的權重,並從灰度圖像中學習P像素的D維嵌入矩陣A∈R(D×P)。通過對每一行AT A應用softmax得到的矩陣S ̂用於鼓勵a和b通道的x=Sx之前的平滑度。爲了確保S矩陣學習可控性階段所需的結構,在可控性階段,稀疏用戶編輯需要傳播,論文遵循一個訓練計劃,其中一元項使用H矩陣逐步屏蔽。利用所學習的結構,從稀疏的一元數據中重建輸入圖像。當需要從稀疏的用戶編輯進行着色時,論文從等式6中爲學習的HOC項和編碼用戶編輯的H矩陣和項求解線性系統,如圖2所示。我們在實驗部分詳細解釋了訓練時間表。
在這裏插入圖片描述
圖3. 可控性:給定一幅灰度圖像,我們學習如何從着色中分離結構。HOC術語用於傳播編碼在H和α術語編碼的稀疏用戶編輯。
考慮到G-CRF後驗的新定義,第一個訓練階段的計劃如下:
在這裏插入圖片描述
隨後論文使用術語L來表示這個程序的目標函數。

第2階段:訓練混合密度網絡(MDN):
因爲顏色圖像x在測試期間不可用,在第二個訓練階段,論文使用參數分佈p_ψ (z|g)捕捉在第一個訓練階段學習到的近似後驗q_ϕ (z|x,g)。由於對彩色圖像x的依賴性,論文期望近似後驗q_ϕ (z|x,g)比p_ψ (z|g)更容易建模。因此,論文讓p_ψ (z|g)是一個含有M個分量的高斯混合模型(GMM)。它的均值、方差和分量權重通過一個帶參數ψ的混合密度網絡(MDN)進行參數化。直觀地說,對於給定的灰度圖像,論文期望M分量對應於不同的着色。通過最小化負條件對數似然,將從第一個訓練階段學習到的顏色嵌入z映射到其中一個分量,即最小化:
在這裏插入圖片描述
因此,π_(g,ψ)((i)),μ_(g,ψ)((i))和σ分別指由ψ參數化的MDN網絡學習的GMM的混合係數、均值和固定協方差。然而,最小化-ln⁡〖p_ψ (z|g)〗是困難的,因爲它涉及計算不同指數分量上求和的對數。爲了避免這種情況,論文明確地將編碼z分配給高斯分量m,其平均值最接近z,即m=argmin┬i⁡‖z-μ_(g,ψ)^((i)) ‖。因此,將負對數似然損失-ln⁡〖p_ψ (z|g)〗簡化爲求解以下程序:
在這裏插入圖片描述
注意,潛在樣本z是從第一階段學習的近似後驗q_ϕ (z|x,g)中獲得的。

實驗對比

在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章