Learning to See in the Dark

一、作者

Chen Chen - UIUC
Qifeng Chen - Intel Labs
Jia Xu - Intel Labs
Vladlen Koltun - Intel Labs

二、相關術語

ISO
- 感光度
- 衡量底片對於光的靈敏程度，由敏感度測量學及測量數個數值來決定，最近已經被國際標準化組織標準化
lux
- 光照度，勒克司度
- 表示被攝主體表面單位面積上受到的光通量，是衡量拍攝環境的一個重要指標
SNR
- 信噪比
photon
- 光量子，簡稱光子
- 傳遞電磁相互作用的基本粒子，是一種規範玻色子
LibRaw
- 一個提供圖像數據處理的庫，處理對象爲數字攝像機採集到的 RAW 數據

三、摘要

低光子數 & 低信噪比使得低光成像具有挑戰性。
短曝光圖像受到噪聲的影響，長時間曝光會導致圖像模糊並且通常是不切實際的。
各種去噪，去模糊和增強技術的有效性受限於極端條件，例如夜間的視頻率成像。
爲了支持基於學習的低光圖像處理方法的發展，本文推出了一個數據集，包含衆多低光短曝光圖像和長曝光圖像的圖像對。
基於上述數據集，本文提出了一個可端到端訓練的全卷積網絡，用於處理低光圖像。該網絡直接以傳感器原始數據爲輸入，完全取代那些傳統的處理步驟，並在新數據集上得到良好的結果。

四、引言

任何成像系統都會產生噪聲，特別是低光照下的成像。
高 ISO 可以使得圖像採集的亮度增高，但同時也會使噪聲增大。
諸如直方圖均衡化等後處理能夠帶來一些收益，但是無法改善因低光子帶來低信噪比的現象。
諸如光圈、延長曝光和閃光燈等物理方法能改善低光下低信噪比成像，但是也有特定的缺陷，比如延長曝光時間會因相機抖動或者物體運動而導致模糊。
目前對低光圖像進行去噪、去模糊和增強的方法大多數都是建立在中等噪聲強度的昏暗環境的前提下，本文將關注那些照明嚴重受限條件和短曝光條件下的極低光成像改善。
下圖(a)是具有比普通相機感光度高的索尼相機拍攝的效果，可以看到，即便感光度較高，由於本身環境缺少光照，使得效果非常黑暗；(b)是具有極端高感光度的相機拍攝的效果，圖像中大多數內容能夠得到辨別，但圖像整體昏暗，帶來較多的噪聲，嘈雜，顏色失真，而且使用極端高的感光度拍攝是不現實的；(c)是本文方法恢復的效果。

還有一種 burst alignment 算法，但它可能不適用於極端環境條件，並且因爲使用了 lucky imaging 的原因，該算法不適用於視頻處理。
本文提出的深度神經網絡將學習低光原始圖像數據的處理，包括顏色變換、去馬賽克、降噪和圖像增強等，對網絡進行端到端的訓練有利於避免噪聲放大和錯誤積累。
目前相關方法的評估都是基於合成或無 Ground Truth 的低光圖像數據集，本文認爲現在還沒有一個可用的公共數據集，並提出了一個帶有衆多短曝光低光圖像和長曝光高質量圖像圖像對的數據集。
本文的神經網絡在提出的數據集上做了評估，成功做到了提亮、降噪和還原顏色。

五、相關工作

圖像降噪
- total variation，總變差
- 小波域處理
- 稀疏編碼
- nuclear norm minimization
- 3D transform-domain filltering（BM3D）
- stacked sparse denoising auto-encoders（SSDA）
- trainable nonlinear reaction diffusion（TNRD）
- multi-layer ceptrons
- deep autoencoders
- CNN
- 多圖像去噪
低光圖像增強
- 直方圖均衡化
- 伽馬校正
- 逆暗通道
- 小波變換
- Retinex 模型
- 照明映射估計
噪聲圖像數據集（合成）
- RENOIR Dataset（圖像對空間錯位）
- Google HDR+ Dataset（不針對極端低光圖像，基本在白天拍攝）
- Darmstadt Noise Dataset（白天拍攝，不針對低光圖像）

六、See-in-the-Dark Dataset

SID 數據集中包含 5094 個短曝光原始圖像，並且每張短曝光原始圖像都有一張對應的長曝光參考圖像組成圖像對。
- 多個短曝光圖像可以對應相同的長曝光參考圖像。
- 其中，長曝光參考圖像只有 424 張。
攝像機型號
- Sony α7S Ⅱ
  - 全幀 Bayer 傳感器
  - 分辨率：4240 × 2832
- Fujifilm X-T2
  - APS-C X-Trans 傳感器
  - 分辨率：6000 × 4000
短曝光原始圖像的曝光時間設置爲 1/30 到 1/10，長曝光參考圖像的曝光時間被設置爲短曝光時間的 100 到 300 倍長，例如 10 到 30 秒。
長曝光參考圖像仍然包含小部分噪聲，但感知質量已經足夠。
SID 數據集包含室內和室外場景的圖像
- 室外圖像一般採集於夜晚，處於月光下或者路燈下。
  - 攝像機的照明度爲 0.2 lux 到 5 lux
- 室內圖像更黑暗，一般採集於封閉房間，只提供一些微弱的間接照明
  - 攝像機的照明度爲 0.03 lux 到 0.3 lux
基於隨機的原則，SID 數據集 20% 被選爲測試集，10% 被選爲驗證集，其餘爲訓練集。

七、方法

傳統方法、L3 和 Burst 方法的流圖如圖 7-1 所示。

傳統方法通常需要根據攝像機的特性進行再調整。
因爲傳統和 L3 方法都處理不了極低信噪比的圖像，所以它們都不適用於低光成像改善。
Burst 方法在智能手機攝像頭上取得了不錯的效果，但引入了一定的複雜度，並且因爲幸運成像的緣由不易擴展到視頻上使用。
本文神經網絡
- 端到端
- FCN（全卷積網絡）

輸入：傳感器採集的原始數據，非 sRBG 格式數據
輸出：sRGB格式數據
工作流程（Bayer 傳感器）
- 將傳感器生成的 Bayer Raw 數據（H × W × 1）處理爲四個通道的新數據結構 Input（H/2 × W/2 × 4）
- 將Input（H/2 × W/2 × 4）減去代表黑色的電平，得到新Input
- 將Input（H/2 × W/2 × 4）進行比例放大
- 將Input（H/2 × W/2 × 4）送入 FCNN，FCNN 輸出 Output（H/2 × W/2 × 12）
- 將 Output（H/2 × W/2 × 12）處理爲最終的 Output（H × W × 3），即 RGB 格式
比例放大
- 將放大率作爲可調的一個外部輸入，類似於攝像機的 ISO 設置，可調整輸出圖像的亮度，且放大率越大，輸出圖像的亮度越大，如圖 7-3 所示，圖注爲放大率。

FCNN結構選擇
- 一個多尺度上下文聚合網絡（a multi-scale context aggregation network, CAN） - Q. Chen, J. Xu, and V. Koltun. Fast image processing with fully-convolutional networks. In ICCV, 2017.
- 一個 U-net（默認） - O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
- 殘差網絡不被考慮，因爲輸入和輸出使用不同的顏色空間進行圖像表示
訓練
- Loss
  - L1 loss
- Optimizer
  - Adam
- 放大率
  - 長曝光參考圖像與短曝光原始圖像的曝光時間比
- 數據增廣
  - 隨機裁剪（patch size 爲 512 × 512）、反轉和旋轉
- epochs
  - 4000
- learning rate
  - 1 ~ 2000 epochs：10-4
  - 2001 ~ 4000 epochs：10-5

八、實驗

與傳統方法相比
- 數據是通過 Fujifilm X-T2 採集的，感光度爲 800，光圈爲 f/7.1，曝光時間爲 1/30 s，攝像機照明爲 1 lux。
- 如圖 8-1 所示，(a)圖爲未處理前的效果，(b)圖爲傳統方法處理後的效果，(c)爲本文方法處理後的效果，可以看到，傳統方法處理後仍存在較多噪聲和顏色失真。圖 8-2 和 8-3 也表現出了這種結果，其中圖 6 是一個新的攝像機（iPhone 6s 攝像頭）拍攝到的畫面。

與去噪和burst方法相比

選取 BM3D 作爲參考方法
- BM3D 是一種非盲去噪方法，該方法需要將噪聲強度作爲一個外在輸入參數方可，若該輸入參數設置得小，去噪後可能仍留下明顯的噪聲，若該輸入參數設置得大，去噪後可能使得圖像過於平滑。
- 本文方法是一種盲去噪方法，該方法能夠根據噪聲強度自適應地去噪。
選取 burst 方法作爲參考方法
- burst 方法是理想化的，非常適用於已經對齊的圖像序列，但這種理想的圖像序列在現實中一般不會存在，而這次比較所用的測試數據集就已經是對齊了的。
- 採用主觀比較法，讓受調查者主管選擇哪種方法生成的圖像具有更高的感知質量，但事先不會告訴被調查者哪張是由哪個方法生成的，且展示順序也是隨機的。
  
  表 8-1
  Sony x300 set Sony x100 set
  Ours > BM3D 92.4% 59.3%
  Ours > Burst 85.2% 47.3%
- 由表 8-1 可以看到，在兩個不同的測試集上，本文方法均得到了更高的評價。

表 8-1
	Sony x300 set	Sony x100 set
Ours > BM3D	92.4%	59.3%
Ours > Burst	85.2%	47.3%

不同參數組合的 PSNR / SSIM

表 8-2
	Sony	Fuji
默認參數組合	28.88 / 0.787	26.61 / 0.680
U-net → CAN	27.40 / 0.792	25.71 / 0.710
Raw → sRGB	17.40 / 0.554	25.11 / 0.648
L1 → SSIM loss	28.64 / 0.817	26.20 / 0.685
L1 → L2 loss	28.47 / 0.784	26.51 / 0.680
Packed → Masked	26.95 / 0.744	/
X-Trans 3 × 3 → 6 × 6	/	23.05 / 0.567
Stetched references	18.23 / 0.674	16.85 / 0.535

在兩個測試集上，U-net 比 CAN 得到的 PSNR 更高，CAN 比 U-net 得到的 SSIM 更高，但是 CAN 會引起顏色的損失。
在兩個測試集上，使用原始 RAW 數據比使用 sRGB 得到的效果要好。
在兩個測試集上，loss 從 L1 更換爲 L2 或 SSIM loss 得不到更好的效果，而添加 total variation loss 或 GAN loss 也得不到更好得效果。
關於直方圖均衡化的使用
- (a) 爲對某張長曝光參考圖像進行直方圖均衡化後的圖像。
- (b) 爲將訓練集中所有長曝光參考圖像進行直方圖均衡化後，進行訓練，得到的某張輸出圖像，可以看到，該圖像在牆壁上產生了一些僞影。
- (c) 爲不做直方圖均衡化後進行訓練得到的某張輸出圖像，可以看到，該圖像偏暗。
- (d) 爲對 (c) 進行直方圖均衡化後的輸出圖像。

九、個人總結

本文的兩點貢獻
- 爲低光成像恢復的科研收集了一個 SID 數據集。
- 將 U-net 應用於低光成像領域。

十、待了解

burst alignment 算法
lucky imaging
total variation
稀疏編碼
nuclear norm minimization
3D transform-domain filltering（BM3D）
stacked sparse denoising auto-encoders（SSDA）
trainable nonlinear reaction diffusion（TNRD）
deep autoencoders
inverse dark channel prior
Retinex model
illumination map estimation
RENOIR Dataset
Google HDR+
Darmstadt Noise Dataset
sRGB
libraw

論文閱讀筆記：《Learning to See in the Dark》

Learning to See in the Dark

一、作者

二、相關術語

三、摘要

四、引言

五、相關工作

六、See-in-the-Dark Dataset

七、方法

八、實驗

九、個人總結

十、待了解

PyTorch view和reshape的區別

Pytorch geometric 打亂數據集的另一種方法，如 TUDataset 等等（非原Pytorch）

liunx 安裝matlab2019b The Installer cannot be run from inside the DVD directory.

Mac brew 安裝教程解決網絡下載慢安裝失敗等問題

論文閱讀筆記：《Learning to See in the Dark》

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結