Joint Bilateral Learning for Real-time Universal Photorealistic Style Transfer

paper：https://arxiv.org/abs/2004.10955

本文是Boston & PixelShift.AI & Google Research寫的一篇關於實時風格遷移的爽文。作者包含大名鼎鼎的Jiawen Chen。看標題也很明顯就知道，它是HDRNet的傳承者，是HDRNet類方法在風格遷移領域的成功應用（手機端4K實時風格遷移）。

Abstract

風格遷移指的是將圖像A的藝術風格遷移到圖像B的內容中，從而媲美相加拍攝的效果。近年來基於深度學習的方法取得了令人驚訝的效果，但存在速度過慢問題或僞影問題，這就導致了相應技術難以實際產品化落地。作者提出一種的快速的端到端的風格遷移架構，它不但速度夠快，而且生成結果更爲逼真。該方法的核心：一個可以學習局部邊緣敏感仿射變換(edge-aware affine transforms)的前向神經網絡。該方法一經訓練完成，它可以在任意對圖像上實施魯棒風格遷移。相比其他SOTA方法，所提方法可以生成更好的視覺效果，同時更快，在手機端可達實時@4K。

Our model is a feed-forward deep neural network that once trained on a suitable dataset, runs in real time on a mobile phone at full camera resolution (i.e. 12 megapixels or “4K”) significantly faster than the state of the art. ---- from the paper.

作者設計了一種“雙邊空間（bilateral space）”深度學習算法，它通過一個緊緻網絡在低分辨率學習局部放射變換，然後在原始分辨率進行風格映射。是不是很有HDRNet的風格！。該文貢獻包含以下三點：

提出一個實時而逼真風格遷移網絡；
所提網絡可以在手機端達到實時@4K（注：這是最讚的）；
提出一種雙邊空間拉普拉斯正則消除空間網絡僞影

Method

上圖給出了所提方法與其他SOTA方法在生成結果的視覺效果對比，毋庸置疑，所提方法取得了完勝。所提方法基於單個前向神經網絡而設計，它以兩個圖像作爲輸入，內容圖像與風格圖像，輸出具有前者內容後者風格的逼真結果。

所提方法具有極好的通用性：一經訓練完畢，它可以輕易擴展到其他輸入組合。所提方法的關鍵核心在於：學習局部放射變換，它“天生”可以迫使“逼真約束”（photorealistic constraint）。

Background

Content and Style: 早期的神經風格遷移基於優化輸入圖像的內容與風格，相應損失定義如下：

注：分別表示從預訓練VGG19中選擇的中間層數，在風格遷移中往往採用VGG19提取風格與內容信息。內容相似性可以通過特徵層面的MSE損失評價，風格相似性可以通過特徵封面的Gram matrices 評價。

AdaIN: 除了直接上述計算內容與風格損失的方法，還有另一種比較好的方法：特徵統計匹配。其中有代表性的當屬AdaIN，其公式描述如下：

其中x與y分別表示內容與風格特徵通道。在該文中，作者選用了AdaIN及其對應的風格損失：

Bilateral Space: 雙邊空間最早被用於對邊緣敏感圖像降噪進行加速，後被拓展進行圖像間的變換（BGU），再後來因其可微性被拓展到深度學習領域得到了知名的HDRNet被用於tone mapping與細節增強。

Network Architecture

作者所設計的網絡結構包含兩個分支：(1)係數預測分支：它以低分辨率的內容與風格作爲輸入，學習他們在低維(low-level)特徵層面的聯合分佈並預測放射雙邊網絡;（2）渲染分支：與HDRNet類似，無改進，直接在全分辨率圖像上進行操作。對於每個像素，它採用學習到的查找表計算luma值, 切片輸出，通常採用三次線性插值得到最終的輸出。網絡結構信息見下圖。

Style-based Splatting: 首先需要採用多尺度模型學習內容與風格特徵的聯合分佈，基於該聯合分佈預測仿射雙邊網絡。作者採用預訓練VGG19提取四個尺度(conv1_1, conv2_1, conv3_1, conv4_1)特徵，受StyleGAN架構啓發，作者採用splatting blocks處理這些多尺度特徵。從最精細(finest)的特徵開始，對內容與風格特徵執行權值共享stride=2的卷積同時通道數倍增，該權值共享卷積可以使得後續的AdaIN層學習內容與風格的聯合分佈而無需相應的監督。與此同時，將所得內容特徵加入到AdaIN對齊的特徵中，然後再採用stride=1的卷積進行降維選擇有意義(relevant)的特徵。

Joint Bilateral Learning: 基於雙邊空間中的對齊內容-風格特徵，作者尋求學習仿射雙邊網絡（它編碼了語義級的局部變換）。類似於HDRNet，作者將整個網絡劃分爲非對稱的兩個分支：(1)用於學習局部顏色變換的全卷積局部分支；(2)包含卷積與全連接層的全局分支，它有助於進行變換的空域正則。

由於所提方法的目標在於：執行通用的風格遷移而且無需任何明確的語義表示，作者採用了一個小網絡學習場景類別的全局表示。該全局分支包含兩個stride=2的卷積，後接四個全連接層輸出一個64維的向量summary。與此同時，將該全局表示添加到每個位置的局部表示後並通過降維到96。該96維信息可以reshape到8個luma bins,每個bin包含的放射變換。

Losses

由於所設計的網絡結構是可微的，故而可以在最終的輸出上直接定義損失函數。在內容損失、風格損失之外，作者還添加了一種新穎的雙邊空間拉普拉斯正則：

其中的定義見前文公式，其他參數取值爲，的定義如下：

其中，表示所估計的雙邊網格，表示其近鄰。拉普拉斯正則用於懲罰相鄰網格cells之間的不相似性，以迫使所學習的局部放射變換的局部平滑性。作者通過實驗驗證了所提拉普拉斯正則的必要性。

Training

作者從500px.com網站上手機了一個包含10W高質量專業圖像的數據集，採用Tensorflow進行訓練。優化器選用Adam，BatchSize爲12（內容與風格分別12張）。在每個epoch，作者隨機將上述數據劃分爲5W內容-5W風格。訓練圖像的分辨率爲，共計訓練25epoch，在單個TeslaV100GPU上花費兩天時間。訓練完成後，推理階段可以在任意分辨率執行。

Experiments

在驗證階段，作者從splash.com網絡收集一個包含400高質量圖像的測試集。

首先，直接上定性評價結果。作者將所提方法與PhotoWCT, LST, WCT等方法進行了對比，對比結果見下圖。由於unpooling與後處理的依賴型，PhotoWCT幾乎在所有場景上都存在不可忽視的僞影問題；而LST主要是進行風格遷移，內容生成方面採用了耗時的空域傳播網絡作爲後處理步驟降低畸變僞影，儘管如此及，其所生成結果仍存在不可忽視的額僞影；在內容與風格圖像具有相似語義時，WCT表現非常好，但是當兩者存在較大差異時，其性能急劇變差。而所提方法在上述具有挑戰的圖像上均表現優異。