Cascading Convolutional Color Constancy

Abstract

在计算色彩恒常性中,将场景的光照从物体的表象中回归是一种普遍采用的方法。然而,由于光源未知、材料的反射性质不同、外部成像因素(如不同的相机传感器)等原因造成的固有外观和标签的模糊性,仍然是一个具有挑战性的问题。在本文中,我们引入了一种新的算法,通过级联卷积颜色恒常性(简而言之,C4)来提高回归学习的鲁棒性,并在一个独特的框架中实现跨数据集(不同相机和场景)的稳定泛化能力。所提出的C4方法通过引入加权乘累积损失函数,从各个级联阶段集成了一系列依赖的照明假设,该方法可以从本质上捕获不同的照明模式,并显式地实施由粗到细的网络优化。在公共颜色检查器和NUS 8-Camera基准上的实验结果表明,与最先进的方法相比,该算法具有更好的性能,特别是在更困难的场景中。

Introduction

除了场景对象的固有反射特性和相机上的外部光谱敏感性外,图像中的颜色还会受到光照的影响而产生偏差,但对于人类的视觉感知系统来说,它们似乎是相对恒定的。这种特性被称为颜色恒常性,它使得物体在不同的光源下呈现,而不依赖于投射的照明,这是很多高级视觉问题所需要的。颜色恒常性问题通常可以通过先估计场景光源的颜色,然后再恢复场景物体的标准颜色来解决。大量计算色彩恒常性算法(Qian et al. 2019;陈等人2019年;Cheng et al. 2015;Bianco、Cusano和Schettini 2017;Shi, Loy, and Tang 2016;Hu, Wang, and Lin 2017)依赖于准确和稳健的照明预测,然后使用简单而有效的von Kries模型(von Kries 1902)进行图像校正。估计一幅图像的照度可以表示为学习一个从图像表示到其相应照度标签的回归映射。从外观不一致和标签不明确的角度出发,寻找和确定光照的最佳假设并非易事。除了未知的表面反射外,传感器的灵敏度和光源光谱也会导致被捕获场景物体的外观变化较大。具体来说,相机中用于彩色成像的传感器的光谱响应在不同的相机型号和品牌之间并不一致,例如,在NUS 8-camera数据集(Cheng, Prasad, and Brown 2014)中,一个场景被8个不同的相机捕获,它们对于相同的物体表面有视觉上不同的颜色。因此,典型的解决方案是训练特定于摄像机的估计器,由于数据需求特性,该估计器效率较低,甚至不切实际。 很少有算法(Qian等人2019)专注于具有挑战性的与摄像机无关的照明估计,从而实现了强大的性能。因此,挑战仍然存在。现有的大部分算法(Bianco、Cusano和Schettini 2017;巴伦2015;Shi, Loy, and Tang 2016;2017年;Hu, Wang, and Lin(2017)提出了处理外观不一致性的方法,但在实践中很少有人关注易出错假设带来的挑战,即每张图像的整个场景中都存在一个独特的光谱光照。在颜色恒定数据集的标签获取过程中,通常在图像中放置一个Macbeth ColorChecker图表,其颜色被记录为地面真实照明,从而破坏了保证:所记录的地面真实代表了真实的全局照明。因此,在空间区域上,标签和真实场景照明之间的差距使得学习回归变得更有挑战性,特别是考虑到在最先进的深度方法(Bianco, Cusano,和Schettini 2017;Shi, Loy, and Tang 2016;胡,王,林2017)。对物体外观不一致和标签模糊的鲁棒性是期望从图像观察和照明标签中学习的图像表示属性。为了实现这些,我们在实验中引入了一个用于级联卷积颜色恒常性的多重累积损失函数(例如FC4 (Hu, Wang, Lin, 2017))来同时应对这两个挑战。详细地,一系列相关的照明假设,反映了不同的照明模式,通过提出的级联模型,然后在一个集合中结合,以强制明确的粗到细细化照明假设,如图1所示。本文的贡献有三方面。

本文针对照度估计提出了一种通用的级联结构,以:1)集合多重相关照度假设和2)通过新颖的乘积损失实现粗到细的细化,可以容易地将其插入其他基于学习的照度估计方法中 。

提出的C4方法通过在更深的网络结构中丰富抽象特征来增加模型灵活性,并且还发现了假设空间中的潜在相关性,从而减轻了训练样本不明确的困扰。

在两个流行的基准上进行的大量实验表明,我们的C4取得了比最先进技术更好的性能,特别是在处理更困难的场景时。

源代码和预先训练的模型可在https://github.com/yhlscut/C4获得。

Related work

颜色恒常性已经研究了几十年,大量的传统算法是基于低级图像统计,如白色的补丁(布雷纳德和万德尔1986),灰色世界(Buchsbaum 1980), Gray-Edge (Van De Weijer、Gevers Gijsenij 2007),灰度的颜色(Finlayson Trezzi 2004),明亮的像素(Joze et al . 2012),灰色像素(杨高,和李2015)和灰色指数(黔et al . 2019年)。提出这些算法以使用算法特定的假设来确定中性白色,这鼓励以无学习的方式直接应用于测试图像,但考虑到它们依赖于像素级颜色的统计分布(例如, 使用灰色像素(Yang,Gao和Li,2015年)以及最先进的统计灰度指数(Qian等人,2019年)缺乏灰色像素。

基于学习的方法是在场景光照下生成恒定颜色的强大替代方法,它可以分为两组色域映射(Barnard 2000;(Chakrabarti, Hirakawa,和Zickler, 2011)和回归学习(Funt和Xiong, 2004;Cheng et al. 2015;Qian等,2017;陈等人2019年;Cardei和Funt 1999;Schaefer, Hordley,和Finlayson 2005;Bianco、Cusano和Schettini 2017;巴伦2015;Shi, Loy, and Tang 2016;2017年;胡,王,林2017)。以前的色域映射算法包括基于边缘的(Barnard 2000),基于交点的(Chakrabarti,Hirakawa和Zickler 2011)和基于像素的(Chakrabarti,Hirakawa和Zickler 2011)假定给定光源下颜色的大小是有限的 ,但是当光源的颜色发生偏差时,观察到的颜色会有变化。在给定足够的标记训练数据的情况下,通过将测试图像在未知光源下的色域映射到正则色域,训练模型识别正则光照,从而生成场景光照的估计。

后一种基于回归学习的算法旨在学习从图像表示到相应的光照向量的直接回归映射。这些方法侧重于基于支持向量回归(Funt和Xiong, 2004年)、回归树(Cheng et al. 2015年)和一组浅层回归(Cardei和Funt, 1999年;(Schaefer, Hordley, and Finlayson 2005)或挖掘维度间标签相关作为结构输出回归(Qian et al. 2016;陈等人,2019年)。受卷积神经网络在众多视觉任务上取得成功的启发,许多著作将二维卷积特征编码引入到颜色恒常性中。(Bianco, Cusano,和Schettini 2017)是深度颜色恒常性的第一次尝试,它通过基于补丁的采样拟合数百万网络参数来处理数据稀疏性问题。卷积颜色恒量(CCC)(Barron 2015)和快速傅立叶颜色恒量(FFCC)(Barron and Tsai 2017)将问题表达为二维对数色度空间上的二维空间定位任务,两种方法的区别在于,后者的性能和加速性能得益于额外的语义特征和频域中的BVM估计。在(Hu,Wang,and Lin 2017)中,引入了置信度合并层以自动进行编码特征并发现用于照明估计的基本空间区域的位置。 现有的深度学习方法主要专注于设计网络结构以进行健壮的特征编码,以应对外观不一致的挑战,但是却无法从整体中结合多个照明假设来处理模棱两可的样本中受益。

最近的DS-Net(Shi,Loy,and Tang 2016)有两个专家分支,首先生成两个假设,然后自动选择一个更好的假设。 与我们的C4方法类似,其动机是利用场景照明的多种假设来获得稳定的色彩稳定性。但是,有两个主要区别。 首先,DS-Net进行判别式选择,而不是像我们的C4模型那样共同学习发现多个照明假设之间的潜在依赖性。其次,DS-Net并行生成多个独立的照明假设,而所提出的级联网络结构中的C4方法会串行生成相关的假设,以明确地执行从粗到精的细化。 表1和表2中的实验结果表明,我们的C4模型优于DS-Net和其他最新方法。

C4:Cascading Convolutional Color Constancy

单个照度估计问题的问题定义是从图像X\in R^{HXWX3}预测照度向量y\inR^{3}。 对于基于学习的照明估计,目标函数可编写如下:

\underset{\theta}{min}L(f^{\theta}(X),y)

其中f(\theta)(.)\in R^{3}是从图像X到照明矢量y的映射,θ表示要优化的f的模型参数。 L(·)表示损耗函数,照度估计中的典型损耗为角度损耗(由式(3)表示)。在测试过程中,给定输入,训练后的模型fθ(·)会推断出预测的照明度fθ(X),用于生成色彩校正的图像。在卷积颜色恒定的情况下,fθ(·)是深层网络的输出,而θ表示网络权重。 本节将分别概述提出的C4算法,新颖的乘加损失,图像校正和实现细节。

Network Structure

C4网络由三个阶段组成,如图2所示。给定训练对\{X,y\}_{i},i\in\{1,2,...,N\},在级联结构中,f^{\theta}(.)可分解为f_{l}(.),l=1,2,...,L,
其中l和L分别表示级联级别和级联总数,为简单起见,省略了θ。我们将f_{l}f_{l-1}(X)定义为f_{l}(X/f_{l-1}(X))的更简单表示法(图像校正,在公式(5)中说明)。 考虑到级联结构,现在可以将三级C4的公式(1)编写如下:

\underset{\theta}{min}L(f_{3}f_{2}f_{1}(X)),y;\theta)

鉴于其在照度估计方面的良好性能,我们在Hu,Wang和Lin(2017)中采用了基于AlexNet和SqueezeNet主干的最新CNN模型– FC4。详细地讲,FC4采用了在ImageNet上预先训练的现成的AlexNet和SqueezeNet的低层卷积层(Deng等,2009),并用另外两个卷积层代替了其余的层。其中,AlexNet-FC4模型将所有层保持到conv5层,将其余全连通层替换为conv6,其中卷积滤波器为6×6×64,卷积滤波器为conv7(1×1×4),而SqueezeNet-FC4的详细网络结构如图2所示。对于这两个网络,每个卷积层之后都有一个ReLU非线性,在最后一个卷积层之前添加一个概率为0.5的dropout。请注意,置信加权池化层后跟原始FC4中的最后一个conv层,以通过抑制不太可信的预测来提高针对空间区域的颜色一致性的鲁棒性,而我们的FC4模型对最后一个转换层的输出采用了简单得多的求和,以获得全局照明y(即,图2顶部的红色条),而不会影响性能。

A Noval Multiply-Accumulate Loss

如前所述,不同级联阶段的照明预测都近似于地面真实照明,可以将其视为其不同节点。与DS-Net(Shi,Loy,and Tang 2016)不同,它通过训练另一个分支来确定更好的假设来设计选择机制,所提出的级联网络旨在利用照明假设之间的潜在依赖性来显式实施逼近地面真相的从粗到精的细化。为此,我们在所有假设上引入组合的乘加损失,以捕获它们的潜在相关性以细化照明假设,其描述如下:

L=\sum_{l=1}^{L}L^{l}(\Pi_{i=1}^{l}f_{i}(X_{i}),y)

其中,L(l)代表第l级联阶段的损耗。 此外,建议的损耗可以通过监督中间照明预测来减轻累积误差。 我们还认为其简单的加权扩展为

L=\sum_{l=1}^{L}w_{l}L^{(l)}(\Pi _{i=1}^{l}f_{i}(X_{i}),y)

其中wl表示第l阶段的照明预测和地面真实性y的损失权重。 我们在等式(4)中比较权重的变体,结果如表3所示。建议的损失以端到端的学习方式嵌入到深度级联网络中,如图2所示。

对于较大的外观变化和不明确的标签,已验证了多个照明估计器的选择或集合具有出色的鲁棒性,但要在照明假设之间捕获潜在的相关性仍然具有挑战性。 本文提出的综合损失非常简单而有效,因为可以通过强制每个级联阶段学习特定的校正模式来抑制先前阶段的模棱两可的假设来解释我们的设计原理。

Image Correction

利用经过训练的C4模型,对于偏向图像X的估计照度\hat{y}=[\hat{y}_{r},\hat{y}_{g},\hat{y}_{b}],可以在简化的假设下恢复图像中场景对象的规范颜色,即可以分别修改每个RGB通道(von Kries 1902)。 换句话说,我们可以在标准照明下获得校正后的图像X\in R^{HXWX3}

\bar{X}_{j}=X_{j}/y_{j} \in R^{HXW}, J\in \{R,G,B\}

Implementation Details

在数据增强中,我们从原始图像中随机裁剪补丁,其边长为原始图像较短边的[0.1,1]倍,并在−30°和30°之间随机旋转。 然后将这些色块调整为512×512像素,最后以0.5的概率随机水平翻转。为了增加有限训练数据的多样性,每个图像中的照明标签在0.6和1.4之间的范围内按三个不同的随机值进行缩放,并且原始图像中存在的逐像素场景颜色也因随机生成的比率而产生偏差。我们进一步应用伽玛校正将线性图像转换为非线性图像并将图像的值归一化为[0,1]。 在训练期间,采用ADAM算法(Kingma和Ba 2014)来训练具有固定批次大小的模型(即在我们的实验中为16),并且对于基于SqueezeNet和AlexNet主干网的C4模型,学习率分别设置为3×10−4和1×10−4。为了提高计算效率和鲁棒性能,我们首先训练2k epoch的一级C4,将学习到的网络权重作为初始权重加载到每个级联级中,作为我们三级C4模型中的初始权重,以进行进一步的微调。

Experiments

Datasets and Settings

我们对两个公共色彩恒定性基准进行实验评估:NUS 8-Camera数据集(Cheng,Prasad和Brown 2014)和重新处理的Color Checker数据集(Shi 2000)。NUS 8相机数据集由来自8台商用相机的1736张图像组成,而Color Checker数据集包含568张图像,包括室内和室外场景。两个基准中的所有图像均为采集设备RAW格式的线性图像,每个图像均带有Macbeth ColorChecker(MCC)图表,该图表提供了光源颜色的估计。

为了防止卷积网络检测到MCC并将其用作视觉提示,在训练和测试过程中,所有图像均会以MCC提供的位置遮盖。 随后(Chen et al.2019; Qian et al.2019; Barron 2015),我们在所有实验中对两个数据集采用三重交叉验证。

正如(Hordley和Finlayson 2004)以及最近的一些著作(Chen等人2019; Qian等人2019; Barron 2015)所建议的那样,
我们将估计的光源\hat{y}的RGB三元组与测量的地面真实光源y的RGB三元组之间的角度误差\in用作性能指标,表示为:

\in(\hat{y},y)=arccos(\frac{\hat{y}.y}{||\hat{y}||||y||})

其中·表示向量之间的内积,||.||是欧几里得范数。 在我们的实验中,报告了所有角度误差的均值,中位数,三次均值,最佳25%和最差25%的平均值。

Comparision to State-of-the-Art Methods

表1在两个数据集的角度误差的均值,中位数,三次均值,最佳25%和最差25%方面将建议的C4与最新方法进行了比较。
所提出的方法可以击败除FFCC之外的大多数颜色恒定性算法(Barron和Tsai 2017)。 一方面,在Color Checker数据集上,我们的方法在所有五个指标上均明显优于FFCC,尤其是在均值和最差25%指标上分别提高了18.18%和15.10%。另一方面,在NUS 8相机基准上,尽管FFCC在某些指标上表现优越,但我们的C4 SqueezeNet-FC4在平均值和最差的25%指标上都优于FFCC。NUS 8相机的性能差距可以通过有限的场景大小来解释(即每个场景使用不同的相机生成8张图像),从而导致我们方法中数据增强的积极作用降低。更重要的是,C4可以在两个数据集的所有五个指标中始终击败其直接竞争对手–骨干AlexNet-FC4和SqueezeNet-FC4。鉴于用于特征编码的相同网络结构,只能通过级联网络结构的设计来解释性能提升。 注意,在更具挑战性的场景中,建议的C4方法始终胜过其主干FC4,如图3所示。

Evaluation on Camera-Agnostic Color Constancy

为了验证我们的模型针对由于相机灵敏度引起的外观不一致的鲁棒性,我们采用了两个不相交的数据集,一个用于训练,另一个用于测试。具体来说,我们使用在NUS 8相机数据集上训练的模型对Color Checker数据集进行评估,反之亦然,其结果记录在表2中。与最先进的统计GI(Qian等人,2019)相比,C4达到了有竞争力的性能,甚至始终如一且显着地在最差25%指标中表现最佳。此外,在两个数据集的所有性能指标中,具有不同主干CNN的C4再次在基于学习的照明估计中再次获得最佳性能,这证明了我们的模型通过逐步完善和数据论证具有强大的泛化能力,可以减轻摄像机成像模式的负面影响。

Discussion about Loss Combination

在我们的级联结构中,损失函数的组合值得讨论。我们进一步讨论了我们的损失函数的设计与两种策略:三级C4模型:单倍乘法损失和加权乘累积损失。

Single multiplication Loss

它只会惩罚最终的精细照明预测。 (例如,在公式(4)中,当L = 3时,权重应为[w1,w2,w3] = [0,0,1])

Weighted multiply-accumulate loss
它结合了每个阶段的中间照明预测,并共同惩罚了这些照明假设。 (例如在等式(4)中,当L = 3时,满足w_{1}\times w_{2} \times w_{3} \neq 0的权重)

表3显示了损失函数组合策略的比较结果。 后者的加权乘积损失式(4)优于其特定情况–单一乘积损失,这支持了我们设计乘积损失以利用多个照明假设的动机。此外,在权重设置中,相等的权重可能会稍好于其余的权重,尽管改善幅度很小。

Discussion of Cascade Size

我们的C4的另一个关键见解是逐步改善级联结构中的照明预测。这种级联结构的性能取决于级联级的大小。 通过比较不同级联级别的性能,我们证明了级联结构的有效性。如图5所示,两个C4变体的所有度量中的角度误差都随着级联级别的增加而减小。特别是,性能从一级C4到二级变体大幅提高,而从二级到三级甚至四级都有适度的提高。但是,随着级联数量的不断增加,性能不会提高。我们认为,更深的网络使其难以适应急剧增加的网络参数大小。 这种现象促使级联级的尺寸相对较大,以保持颜色恒定。

为了进一步说明引入的级联结构的有效性,我们在图4的Color Checker数据集上以提出的C4级联的每个阶段的中间照明预测来可视化一些示例。(c)和(d)中大多数校正后的图像在视觉上比(b)中更接近地面真实(GT),并且我们以地面真实为来定量测量三级C4模型的第一,第二和第三阶段中的预测。 测试样本,P(1,2)= 69.72%,P(2,3)= 60.21%,其中P(l,l + 1)表示测试期间第(l + 1)个阶段与第l个阶段的预测相比更准确的预测的比率。 它进一步验证了从粗到细级联结构的基本原理。

Evaluation with Comparable Network Parameters

如前所述,这种级联结构的性能可以随着级联级L的尺寸的增加而提高(当L <= 4时)。 但是,网络参数的数量与L的大小成正比。为了探索这种改进的真正根源,我们通过减少每个卷积层中的卷积内核数来压缩骨干网的网络参数(即AlexNet-FC4和SqueezeNet-FC4)。如表4所示,压缩后,方法B)和E)中网络参数的数量是原始骨干方法A)和D)的三分之一。使用压缩骨干网络时,我们得到了新的级联模型(即三级C4方法C)和F)),其网络参数的大小可与A)和D)中的原始FC4模型相媲美。
表4揭示了我们的C4的出色性能可以归功于级联网络结构。

Conclusion

本文设计了一个级联的卷积神经网络以实现色彩恒定性,对于不具挑战性的样本(最差的25%度量标准)和在与摄影机无关的设置下,其性能始终保持稳定,从而始终达到最佳性能。实验结果支持相对较大的级联大小,并验证了结合多个照明假设和从粗到精的细化效果的好处。


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章