论文笔记(SR)-Super-Resolution via Deep Learning(详解SRCNN)

论文笔记(SR)-Super-Resolution via Deep Learning(详解SRCNN)

论文下载:https://arxiv.org/pdf/1706.09077.pdf

文章以深度学习为背景,对SR文献进行了考察。关注多媒体的三个重要方面,即图像、视频和多维度,尤其是深度映射。

在每种情况下,首先以数据集和最先进的SR方法(不包括深度学习)的形式引入相关基准。接下来是对各个算法的详细分析,每个算法都包括对方法的简短描述和对结果的评论,并特别参照所做的基准测试。然后是对一些常见数据集以比较的形式进行的最小总体基准测试,同时依赖于各种算法论文中的结果。

 

1 超分辨率(Super-resolution,SR)概述

在天文学、遥感、显微术和断层摄影术等领域,获得的图像可能受到各种因素的限制。这些因素可能包括测量装置的缺陷,如光学退化或传感器的有限容量,不稳定的观测现场,物体运动或介质湍流。受影响的图像可能不清晰,有噪声,缺乏空间和/或时间分辨率。补救措施可以是单独或结合使用盲反卷积(消除模糊)和超分辨率。

超分辨率(Super-resolutionSR)是指从同一场景的一个或多个低分辨率(low resolution,LR)观测中估计高分辨率(high resolution,HR)图像/视频,通常采用数字图像处理和机器学习(machine learning,ML)技术。由于在大多数情况下是一个逆问题,可能有不止一个解,每个解都需要构建一个正向观测模型。关于这个问题的第一次尝试大概可以追溯到1984年;“超分辨率”一词的明确使用是在1990年晚些时候。图4是一个非常详细简单的3层分类。

图4中,第一层根据输入和输出进行分类,分为单输入单输出(single input single output,SISO)、多输入单输出(multiple input single output,MISO)和多输入多输出(multiple input multiple output,MIMO)。MIMO属于视频SR,可以很容易地与第二层合并,这使得第一层冗余。因此,最好直接按照第二层进行分类,即分为两大类,即单幅图像超分辨率(single image super-resolution,SISR)和多幅图像或多帧超分辨率

1.1 单幅图像超分辨率(SISR)

SISR关注的问题是,在假设原始图像设置不可用的情况下,给定场景的单个LR图像,估计底层HR图像。作为一个不适定的问题,由于可能有好几个HR对应于输入的LR图像,所以SISR可以比作普通的“分析”插值(如线性、双三次和三次样条)。任务可能因此变成计算HR网格中丢失的像素强度作为已知像素的平均值,这样就会在光滑部分工作得很好,但在不连续的情况下有风险出错,如在边缘和角落,导致输出振铃和模糊。因此,除了插值之外,还需要更复杂的洞察力来超解析输入。有两种类型的SISR算法:

  1. 学习方法(Learning methods) 采用ML技术对输出图像的HR细节进行局部估计。这些可能是基于像素的,包括统计学习,或基于patch的,包括基于字典的LR到HR的平方像素块对应(称为patch)。后者,也称为基于实例的方法,利用同一图像内部的相似性,可以采用各种方法,例如邻域嵌入、稀疏编码,或将这些方法混合。
  2. 重构方法(Reconstruction methods) 在定义目标HR图像的约束条件时,通常需要明确的先验信息(以分布、能量函数等形式)。这可以通过多种方法实现,比如锐化边缘细节、正则化或反卷积。

 有些方法可以称为ML和重构方法的混合。注意,最近的SISR方法大多属于基于实例的方法,这些方法试图从LR和HR对中学习先验知识,从而减轻了SISR的病态。代表性的方法有邻域嵌入回归、随机森林和深度卷积神经网络(CNN)。

1.2 多幅图像或多帧超分辨率

在多帧SR中,输入通常由一个以上的LR图像组成,这些图像通常来自于场景的不同视角。假设每个输入图像都是底层HR场景的退化版本,被模糊化、下采样和仿射变换破坏。在后来的案例中,积分变换被认为是不重要的,没有携带有用的信息;理想情况下,部分或亚像素变换具有更大的信息价值。有三种类型的多帧方法:

 

  1. 插值方法(Interpolation methods) 通常包括配准、插值和去模糊三个步骤。
  2. 频域方法(Frequency-domain methods) 从输入的LR帧图像的DFT、DCT、DWT或任何其他频域表示中收集有关底层HR的高频的不同线索。由于其局部特性,DWT域更适合。
  3. 正则化方法(Regularization methods) 适用于有限数量的LR图像或病态模糊运算,并尝试使用确定性或随机性正则化策略来包含未知HR图像的一些先验知识。

 

2 图像超分辨率(Image Super-Resolution)

在使用CNN进行恢复任务(如SR和去噪)时,由于重要的图像细节可能会被丢弃,池化或下采样可能会适得其反。因此,在SR任务中通常避免池化层,这也有它的缺点:每增加一个卷积层,就意味着增加一个新的权值层,从而增加更多的参数,其结果是过度拟合和模型太大,无法存储和检索。

2.1 图像基准(Image Benchmarks)

2.1.1 图像数据库

在表I中,列出了许多SR中流行的图像数据集。一些数据集已经被它们的提供者划分为训练、验证和测试集。但是并没有硬性的规则,许多工作使用它们时并不局限于这些分区。有时研究人员会对数据集进行临时处理,或组合多个数据集。

2.1.1 非CNN的图像SR基准测试方法

以下是超分辨率图像文献中常用的一些用于基准测试的,新兴的,非CNN的方法,最后三种方法很重要,因为它们是对CNN策略的反叙述的一部分,可以在它们的比较中发现SRCNN:

 

  1. 双三次插值(Bicubic interpolation):经典插值方法之一,其他的还有最近邻域和双线性插值。
  2. NE+:一组邻域嵌入方法,利用最近邻搜索(nearest neighbor search)在字典中选择若干LR候选patch,并利用它们的HR版本重构HR输出patch,重构方法可能是最小二乘(NE+LS)、局部线性嵌入(NE+LLE)、非负最小二乘(NE+NNLS)。
  3. SC或SrSC:找到稀疏表示来稀疏近似输入的LR patch,然后利用得到的系数稀疏生成相应的HR输出patch。
  4. KK:采用核匹配跟踪和梯度下降相结合的稀疏方法,基于核脊回归(kernel ridge regression,KRR),直接从输入LR图像学习到目标HR图像的映射。
  5. K-SVD:是将K-SVD和正交匹配追踪(OMP)相结合,以提高字典学习效率,以改进稀疏方法SC。
  6. A+,ANR和GR:锚定邻域回归(Anchored Neighborhood Regression,ANR)是一种改进K-SVD和SC的方法,它引入脊回归(可离线求解,每个字典原子/锚都可存储)。一个不太精确但更有效的变异是采用了全局回归,因此,GR. A+ (advanced ANR)这个名称是后来改进的方法,与ANR不同,它不仅从字典原子中学习,还学习了局部邻域锚(anchor)的所有训练patch。虽然具有类似的时间复杂性,但已经证明A+的性能优于ANR和GR。
  7. Self-Ex:自相似算法(self-similarity algorithm) 在对返回的patch估计期望变形后,加入了橡皮筋变换(rubber-band transformations),目的是扩大内部patch的搜索空间。在作者开发的综合数据库上,该方法的性能优于现有的方法,尤其是A+方法。
  8. SRF:超分辨率森林(super-resolution forests)依赖于使用随机森林(RFs)从LR到HR patch的直接映射。作者论证了当代SISR与局部线性回归的关系,并试图将RFs纳入这一框架。该方法有多种变体,包括RF线性(RFL)、RFL+及其高级版本ARFL+(也称为ASRF)。
  9. NBRSF:使用分层外部学习策略,在基于实例的SR中采用了具有双峰树的Na¨ıve-Bayes SR森林。提供了一个快速的局部线性化搜索,连接一种快速的局部朴素贝叶斯(Local Naive Bayes)策略用于patch-wise树的选择。
  10. IA:或改进的A+,是作者提出的改进任何给定SR方法的通用7路策略的结果。

2.2 图像SR的先进算法(State of the Art Methods on Image SR)

SRCNN、DNC、VDSR、MSCN-n、RED-Net、Lsp/Hsp network、ESPCN、GUN、EEDS、HWCN

2.2.1  SRCNN

SRCNN是首个使用CNN结构(即基于深度学习)的端到端的超分辨率算法,论文的思路来源于前人的基于稀疏编码的单帧超分辨重建算法。结构简单,滤波器和层的数量适中,能取得较好的质量和速度。

使用双三次插值将单幅LR图像变成想要的大小,假设这个内插值的图像为Y,目标是从Y中恢复图像F(Y)使之尽可能与HR图像X相似。为了便于区分,仍然把Y称为LR图像,尽管它与X大小相同。需要以下3步对映射函数F进行学习:

 

  1. 特征提取:从LR图像Y中提取patches,每个patch作为一个高维向量,这些向量组成一个特征映射,其大小等于这些向量的维度。第一层定义为函数F1:F1(Y) = max(0,W1 ∗Y + B1)。其中,W1和B1分别代表滤波器的权值和偏差,W1的大小为c*f1*f1*n1, c 是输入图像的通道数,f1是滤波器的空间大小,n1是滤波器的数量。从直观上看,W1使用n1个卷积,每个卷积核大小为c*f1*f1。输出是n1个特征映射。B1是一个n1维的向量,每一个元素对应一个滤波器,在滤波器响应中使用激活函数Rectified Linear Unit (ReLU,max(0,x))。
  2. 非线性映射:这个操作将一个高维向量映射到另一个高维向量,每一个映射向量表示一个高分辨率patch,这些向量组成另一个特征映射。第二步将n1维的向量映射到n2维,这相当于使用n2个1*1的滤波器,第二层的操作如下:F2(Y) = max(0,W2 ∗F1(Y) + B2)。其中,W2的大小为n1*1*1*n2,B2是n2维的向量,每个输出的n2维向量都表示一个高分辨率patch用于后续的重建。也可以添加更多的卷积层(1*1的)来添加非线性特征,但会增加模型的复杂度,也需要更多的训练数据和时间,在原文中,采用单一的卷积层已经能取得较好的效果。
  3. 重建:这个操作汇聚所有的高分辨率patch构成最后的高分辨率图像,并期望这个图像能与X相似。在传统方法中,预测的重叠高分辨率patch经常取平均得到最后的图像,这个平均化可以看作是预先定义好的用于一系列特征映射的滤波器(每个位置都是高分辨率块的“扁平”矢量形式),因此,定义一个卷积层产生的最后的超分辨率图像:F(Y) = W3 ∗F2(Y) + B3。W3的大小为n2*f3*f3*c,B3是一个c维向量。如果这个高分辨率块都在图像域,我们把这个滤波器当成均值滤波器;如果这些高分辨率块在其他域,则W3首先将系数投影到图像域然后再做均值,无论哪种情况,W3都是一个线性滤波器。

将3步操作整合在一起就构成了卷积神经网络,在这个模型中,所有滤波器的权值和偏差均被优化。学习端对端的映射函数F需要评估以下参数: Θ = {W1,W2,W3,B1,B2,B3}。最小化重建函数F(Y;Θ) 与对应的HR图像X之间的损失,给出一组HR图像{Xi}和对应的LR图像{Yi},使用均方误差(Mean Squared Error,MSE)作为损失函数:

其中,n为训练样本数,损失的最小化使用随机梯度下降法和标准的BP算法进行反向传播。使用MSE作为损失函数有利于得到较高的峰值信噪比(Peak Signal to Noise Ratio,PSNR),PSNR是图像复原方法中一个常用的评价指标。

参考:

图像复原】SRCNN论文详解(Image Super-resolution Using Deep Convolutional Networks)

基于深度卷积神经网络的图像超分辨率重建(SRCNN) 学习笔记

 

3 视频超分辨率(Video Super-Resolution)

3.1 视频基准(Video Benchmarks)

3.1.1 视频数据库

 表Ⅲ列出了一些公共可用的流行视频数据集。注意,静态图像数据集仍然有效,主要用于检查单帧图像的质量。

 

3.1.2 非CNN的视频SR基准测试方法

在比较视频SR工作时,不仅要用到视频特有的方法,还要用到前面介绍的常用图像SR方法,尤其是SRCNN、A+、ESPCN和双三次插值。此外,以下是非CNN视频SR的基准测试方法:

  1. 3DSKR:在不进行显式运动估计的情况下,通过求解局部加权最小二乘问题,自适应增强和时空缩放,其中权值来自相邻像素的空间/时间比较。
  2. ANN:利用人工神经网络(artificial neural network,ANN)学习LR和HR帧之间的时空细节。
  3. BayesSR:一种自适应地进行HR帧重建的贝叶斯策略,同时估计运动、模糊核和噪声。
  4. Bayesian-MB:一种特别关注模糊运动 (motion blur,MB)的期望最大化(expectation maximization,EM)策略,通过最优搜索最小模糊像素进行残差模糊估计和HR重建。

 3.2 视频SR的先进算法(State of the Art Methods on Image SR)

 Draft CNN、MFCNN、BRCN、VESPCN

 

4 深度映射/3D和更高维度(Depth Maps/3D and higher dimensions)

4.1 基准(Benchmarks)

4.1.1 数据库

表V列出了一些重要的公共可用数据集。与之前的数据集不同,这些数据集主要处理特定的情况,如表的第三列所述。

4.1.2 非CNN的SR基准测试方法

除了前面描述的一些方法,如ANR、A+、NE+、K-SVD、SRCNN,通常还使用以下这些非CNN方法作为基准测试方法:

  1. 引导图像采样(Guided Image Sampling):一种可以连接上采样的边缘保存滤波器。
  2. MRF:假设深度不连续度,并从伴随的HR相机图像中进行观察,基于马尔可夫随机域的LR深度的增强,通常与相关相机图像的强度变化相协调。
  3. ATGV:由HR强度图像计算得到的各向异性扩散张量引导的深度图像上采样。
  4. 3D-ToF Upsampling:利用非局部均值滤波对深度图像进行正则化,并利用基于HR RGB输入的多特征边缘加权方法,尝试将噪声三维飞行时间(3DToF)相机与HR RGB相机相结合,超分辨LR深度。
  5. PatchSDSR:将每个LR patch输入的高度字段与本地HR patch的通用数据库进行匹配,从而提高深度分辨率;通过MRF标记选择合适的HR候选。
  6. 边缘导向(Edge-guided):利用HR边缘图,对LR对应的边缘进行MRF优化,获得单个深度图像的超分辨率。

 4.2 三维/深度和多光谱数据基于CNN的SR

 3DSRCN、Progressive Deep CNN、Depth SR

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章