Learned Perceptual Image Enhancement筆記

摘要與引言

圖像增強模型的學習過程涉及到如L1/L2等損失函數的優化,雖然這些損失函數對優化來說是友好的(optimization-friendly),但使用這些損失函數通常難以產生對人類感知有吸引力的(perceptually compelling)結果,甚至導致感知失真(perceptual distortion)的缺陷。本文提出在損失函數中加入一項學習得到的無參考的圖像質量度量標準(learned no-reference image quality metric),由此顯著提升圖像增強算子的效果。這項度量標準通過用CNN(convolutional neural network,卷積神經網絡)在一個人類標註審美評分的大型數據集上訓練得來。本文提出的損失函數同時對模型輸出的預測值與ground truth真實值的距離圖像質量作出約束。

貢獻

本文有兩個主要貢獻:

  1. 預測圖像美學評分的NIMA模型
  2. 將NIMA模型加入到圖像增強任務的損失函數中,作爲損失函數的一個附加項,通過這個附加的感知性損失來使圖像增強算法得到更符合人類審美的結果。

圖1爲AVA數據集中的圖像經過NIMA模型後得到的美學評分預測結果,括號中的爲ground truth。

圖2爲本文提出的圖像增強網絡訓練框架。(x, xr)分別是輸入圖像與基準圖像。enhancement CNN是產生增強圖像的網絡,用perceptual loss作爲損失函數來訓練該網絡的權重W。本文提出的損失函數包括一個數據保真項f(.) 和一個圖像質量評估項q(.)
在這裏插入圖片描述

感知性損失(perceptual loss)

本文提出的損失函數可用下式表達:
在這裏插入圖片描述
其中f(.) 的輸入爲基準圖像xr 與模型輸出的增強圖像Cw(x)f(.) 可以是L1/L2 loss,用以測量基準圖像與預測圖像間的距離,作爲一個數據保真項。
γ的值大於0,用以控制感知項對損失函數的影響能力。
感知項q(Cw(x)) = 10 - NIMA(Cw(x));其中NIMA(x) 是圖像x的美學評分,10分爲最高分。可見若NIMA(Cw(x))的值越小,則q(Cw(x))的值會越大,由此爲損失函數增加了美學上的約束。

NIMA: Neural Image Assessment

本節介紹NIMA網絡結構
本文使用VGG16、Inception-v2、MobileNet作爲NIMA的基準網絡。
如圖三所示,基準CNN網絡中的最後一層被替換成平均池化層與其後續的10個神經元的FC層。
基準CNN網絡的權重使用在ImageNet上的預訓練權重,隨機初始化最後的FC層權重,NIMA網絡的權重在AVA數據集上訓練而來
在這裏插入圖片描述

訓練NIMA

訓練NIMA模型的目的是獲得給定圖像的質量評分分佈。圖4爲ground truth分佈與NIMA預測分佈的對比
在這裏插入圖片描述
使用基於EMD的損失函數來訓練NIMA模型。其公式如下:在這裏插入圖片描述

參考文獻

Talebi H, Milanfar P. Learned perceptual image enhancement[C]//2018 IEEE International Conference on Computational Photography (ICCP). IEEE, 2018: 1-13.


待解決的疑問

  1. 基準網絡中的FC層全部替換成卷積層?這個理解是否正確?若是,如何替換?
    在這裏插入圖片描述
    在這裏插入圖片描述
  2. 每個AVA數據集中的圖像對應一個集合的評分p?爲何不是一個圖像對應一個評分?
    在這裏插入圖片描述
  3. Earth Mover’s Distance學習
  4. Context aggregation network學習
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章