翻译:(MPN-Cov)Is Second-order Information Helpful for Large-scale Visual Recognition?

Is Second-order Information Helpful for Large-scale Visual Recognition?
        主要翻译了摘要、传播(前向和后向)以及机制。

1. 摘要

        卷积网络通过叠加卷积层和非线性层,有效地学习了从低层到高层的特征和判别表示。由于大规模识别的最终目标是划分成千上万个类的复杂边界,因此对特征分布的充分探索对于充分发挥卷积神经网络的潜力是很重要的。然而,先进的工作只关注更深层或更广泛的结构设计,很少探索高一阶的特征统计。我们朝着解决这个问题迈出了一步。我们的方法是使用高阶卷积特征的协方差池,而不是最常用的一阶池。所涉及的主要挑战是给定一个大维度特征的小样本的鲁棒协方差估计和协方差矩阵流形结构的使用。为了解决这些问题,我们提出了矩阵幂归一化协方差(MPNCOV)方法。给出了非线性矩阵函数的前向和后向传播公式,使得MPNCOVMPN-COV可以端到端训练。此外,我们还定性和定量地分析了它相对于著名的 Log-Euclidean metric的优势。在ImageNet 2012验证集上,通过结合MPNCOVMPN-COV,我们分别为AlexNet、VGG-M和VGG-16获得了超过4%、3%和2.5%的收益;将MPN-COV集成到50层的ResNet优于ResNet-101,可与ResNet-152相媲美。

3. MPN-COV

        对于一个输入图像,MPN-COV产生一个归一化的协方差矩阵作为表示,它表征了特征通道的相关性,并实际指定了特征分布的形状。
在这里插入图片描述
        上图所示:提出的MPN-COV作为一个层插入到最后一个卷积层和FC层之间,端到端可训练。以最后一个卷积层的响应X为特征,首先计算样本X协方差矩阵P。然后我们进行P的特征值分解(EIG) P 得到正交矩阵U和对角矩阵Λ,通过矩阵幂 QPαQ \triangleq P^{\alpha} 可以转化为P的特征值的幂。因此,在向后传播时,鉴于损失函数𝑙的偏导数 lQ\frac{{\rm ∂}l}{{\rm ∂}Q} \quadQQ从顶部的FC层传播,我们需要以相反的顺序计算相关的偏导数。

3.1 前向传播

        XRd×NX\in\reals^{d\times N}是一个矩阵包含了一个样本的𝑑维𝑁个特征。XX的样本协方差矩阵PP计算为:
XP,P=XIXT,         (1)X\longmapsto P,P=X\overline{I}X^{T} ,\space\space\space\space\space\space\space\space\space(1)
在这里插入图片描述
        IIN×NN\times N单位矩阵,1=[1,1,1,1...]T1=[1,1,1,1...]^{T}是一个𝑁−维向量,𝑇表示矩阵的转置,样本协方差矩阵PP是对称正半定的,其特征值分解如下:
在这里插入图片描述
        ΛΛ = diag(𝜆1, . . . , 𝜆𝑑)是一个对角矩阵(𝜆𝑖, 𝑖 = 1, . . . ), 𝑑 是特征值, UU = [u1, . . . , u𝑑] 是一个正交矩阵的列u𝑖相对应的特征向量𝜆𝑖。**通过EIG我们可以把矩阵的幂变换成特征值的幂。因此,我们有
在这里插入图片描述
        这里𝛼是一个正实数,F(Λ) =diag(𝑓(𝜆1), . . . , 𝑓(𝜆𝑑)),𝑓(𝜆𝑖)特征值的幂:
在这里插入图片描述
        受到元素幂归一化技术的启发,在MPN之后,我们可以进一步执行规范化矩阵ℓ2−norm(M -ℓ2)或matrix Frobenius norm(M-Fro)。矩阵P的矩阵 ℓ2−norm(也被称为光谱范数)用P2\parallel P \parallel_2表示, 如果P是协方差矩阵,则P的最大特征值等于P的最大奇异值。矩阵P的matrix Frobenius norm有多种定义方法如:

        𝜆𝑖是P的奇异值。因此,我们有:
在这里插入图片描述
        当𝛼= 1时,第一个恒等式和第二个恒等式分别被分解为M-ℓ2和M-Fro的归一化。

3.2 反向传播

        我们使用矩阵反向传播的方法,计算损失函数 ll 对某层输入矩阵的偏导数。它建立在矩阵微积分理论的基础上,在考虑正交性、对角性和对称性等不变量的情况下,将结构化的非线性矩阵函数包含在神经网络中。
        让我们考虑 lU\frac{{\rm∂}l}{{\rm ∂}U} \quadl\frac{{\rm ∂}l}{{\rm ∂}\land} \quad的推导。鉴于 lQ\frac{{\rm∂}l}{{\rm ∂}Q} \quad传播自顶部FC层。链式法则的表达式是:
在这里插入图片描述
        其中,dQ为矩阵Q的变化量。从公式(3)可知:
在这里插入图片描述
在这里插入图片描述
        经过一些安排,我们得到:
在这里插入图片描述
        其中,AdiagA_{diag}表示保存A的对角线元素的操作,同时将所有非对角线元素设置为0。对于MPN+ M -ℓ2和或MPN+ M-Fro, l\frac{{\rm ∂}l}{{\rm ∂}\land} \quad分别采取以下形式:
在这里插入图片描述
        然后,对于lU\frac{{\rm∂}l}{{\rm ∂}U} \quadl\frac{{\rm ∂}l}{{\rm ∂}\land} \quad,让我们通过公式(2)计算lP\frac{{\rm∂}l}{{\rm ∂}P} \quad,链式法则是
在这里插入图片描述在这里插入图片描述
        注意,U应该满足正交约束。之后:
在这里插入图片描述
        ∘表示matrix Kronecker product。
在这里插入图片描述
        最后,对于lP\frac{{\rm∂}l}{{\rm ∂}P} \quad,我们得到了损失函数关于输入矩阵X的梯度,它的形式如下:
在这里插入图片描述

4. MPN-COV的机制

        本节解释MPN-COV的机制。我们从统计和几何的角度进行解释,并从计算的角度进行定性分析。

4.1 MPN-COV相当于鲁棒的协方差估计

        样本协方差等于正态分布随机向量的极大似然估计(MLE)的解。虽然MLE被广泛用于估计协方差,但众所周知,当数据的样本是大维度、小尺寸时,MLE的表现很差。这就是我们的协方差汇集所面对的:在最先进的卷积神经网络中,最后一个卷积层输出维数大于512的小于200个特征,因此样本协方差总是秩亏的,使得鲁棒估计成为关键。
        小样本条件下的大维度协方差的鲁棒估计在统计学、信号处理和生物学领域都引起了广泛的关注。Stein首次提出了样本协方差特征值的收缩原理。Ledioit和Wolf证明了最大的特征值是系统向上偏置的,而最小的特征值是向下偏置的,因此引入了最佳线性收缩估计器,其中估计的协方差矩阵Q是样本协方差P与单位矩阵的线性组合(如:Q = 𝛼1P + 𝛼2I)。这种方法与 𝛼𝑖决定通过交叉验证被广泛用于抵消协方差矩阵的病态。我们的MPN-COV非常符合收缩原理,即,收缩最大的样本特征值和拉伸最小的特征值,如后面4.3节所示。它只依赖于样本的协方差,为每个特征值提供个性化的收缩强度。
命题1:MPN-COV with 𝛼= 1 /2是唯一解的正规化的协方差矩阵的标定:
在这里插入图片描述
        Σ是半正定限制,
𝐷vN (A, B) = tr((日志(A)−日志(B))−A + B)
        是冯诺依曼散度矩阵。命题1立即通过将[[31],定理1]中的正则化参数设置为1而得到。注意,经典的MLE只包括公式(12)右边的前两项,而稳健的vN-MLE估计量引入了第三项,约束协方差矩阵类似於单位矩阵。已经证明,vN-MLE优于其他收缩方法和正则化MLE方法。

4.2 MPN-COV近似地利用了黎曼几何(Riemannian Geometry)

        𝑑×𝑑协方差矩阵的空间,用下符号表示:

𝑆𝑦𝑚
是黎曼流形,对该流形进行操作时应考虑几何结构。主要有两种黎曼度量,即仿射黎曼度量和Log-E度量。前一个度量是仿射不变的,但是计算效率低,并且是耦合的,不能扩展到大规模设置。相比之下,最常用的Log-E度量是相似不变的,计算效率高,可伸缩到大规模问题,因为它是一个解耦的度量。
        MPN-COV的度量对应于幂欧几里德(Pow-E)度量。它与Log-E度量密切相关,如下面的命题所示:
命题2:对于任意两个协方差矩阵PP, P~\tilde{P},
在这里插入图片描述功率度量的极限,𝛼> 0时0 = log-E度量方法。
        这个结论第一次被提到是在[7],但是没有证据。在这里,我们简要地证明这一说法。
在这里插入图片描述
根据P的特征值分解得到:
在这里插入图片描述在这里插入图片描述
        关于命题2的界限的同一性,立即通过回忆而得到:
在这里插入图片描述
        因此,提出的MPN-COV可以被视为大约利用黎曼几何的
在这里插入图片描述
        看起来Log-E度量比powe度量更好,因为前者度量的是真实的测地线距离,而后者度量的是它的近似值。我们认为这不是我们的问题,原因有二。一是,Log-E度量要求所涉及的特征值是严格正的[1,34],而powe度量允许非负的特征值。log-E的常见的方法是添加一个小的正数 𝜖 为改善数值稳定性特征值。虽然 𝜖 可以决定通过交叉验证,很难寻求特定𝜖适合大量的图片。例如,[11]建议𝜖= 10e−3,这将消除特征值小于10−3。综上所述,卷积的高级特征分布是这样的,对数会带来副作用,我们将在下一小节定性分析。

4.3 Qualitative Analysis

        本节从计算的角度定性地分析了矩阵幂和对数对样本协方差特征值的影响。矩阵对数可以看作是一种归一化,非线性地应用于特征值:
在这里插入图片描述在这里插入图片描述
        下面我们将专注于幂函数𝑓(𝜆)=𝜆^(1/2)和对数𝑓(𝜆)=log(𝜆)。
        我们首先研究样本协方差的特征值的经验分布。我们从2012年的ImageNet训练集中随机选择30万张图像。对于每幅图像,我们提取第5个conv. (Conv5)层(使用ReLU)的输出,使用在ImageNet 2012上预先训练的AlexNet模型,估计样本协方差P,然后使用单精度浮点格式的EIG计算其特征值。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章