翻譯:(MPN-Cov)Is Second-order Information Helpful for Large-scale Visual Recognition?

Is Second-order Information Helpful for Large-scale Visual Recognition?
        主要翻譯了摘要、傳播(前向和後向)以及機制。

1. 摘要

        卷積網絡通過疊加捲積層和非線性層,有效地學習了從低層到高層的特徵和判別表示。由於大規模識別的最終目標是劃分成千上萬個類的複雜邊界,因此對特徵分佈的充分探索對於充分發揮卷積神經網絡的潛力是很重要的。然而,先進的工作只關注更深層或更廣泛的結構設計,很少探索高一階的特徵統計。我們朝着解決這個問題邁出了一步。我們的方法是使用高階卷積特徵的協方差池,而不是最常用的一階池。所涉及的主要挑戰是給定一個大維度特徵的小樣本的魯棒協方差估計和協方差矩陣流形結構的使用。爲了解決這些問題,我們提出了矩陣冪歸一化協方差(MPNCOV)方法。給出了非線性矩陣函數的前向和後向傳播公式,使得MPNCOVMPN-COV可以端到端訓練。此外,我們還定性和定量地分析了它相對於著名的 Log-Euclidean metric的優勢。在ImageNet 2012驗證集上,通過結合MPNCOVMPN-COV,我們分別爲AlexNet、VGG-M和VGG-16獲得了超過4%、3%和2.5%的收益;將MPN-COV集成到50層的ResNet優於ResNet-101,可與ResNet-152相媲美。

3. MPN-COV

        對於一個輸入圖像,MPN-COV產生一個歸一化的協方差矩陣作爲表示,它表徵了特徵通道的相關性,並實際指定了特徵分佈的形狀。
在這裏插入圖片描述
        上圖所示:提出的MPN-COV作爲一個層插入到最後一個卷積層和FC層之間,端到端可訓練。以最後一個卷積層的響應X爲特徵,首先計算樣本X協方差矩陣P。然後我們進行P的特徵值分解(EIG) P 得到正交矩陣U和對角矩陣Λ,通過矩陣冪 QPαQ \triangleq P^{\alpha} 可以轉化爲P的特徵值的冪。因此,在向後傳播時,鑑於損失函數𝑙的偏導數 lQ\frac{{\rm ∂}l}{{\rm ∂}Q} \quadQQ從頂部的FC層傳播,我們需要以相反的順序計算相關的偏導數。

3.1 前向傳播

        XRd×NX\in\reals^{d\times N}是一個矩陣包含了一個樣本的𝑑維𝑁個特徵。XX的樣本協方差矩陣PP計算爲:
XP,P=XIXT,         (1)X\longmapsto P,P=X\overline{I}X^{T} ,\space\space\space\space\space\space\space\space\space(1)
在這裏插入圖片描述
        IIN×NN\times N單位矩陣,1=[1,1,1,1...]T1=[1,1,1,1...]^{T}是一個𝑁−維向量,𝑇表示矩陣的轉置,樣本協方差矩陣PP是對稱正半定的,其特徵值分解如下:
在這裏插入圖片描述
        ΛΛ = diag(𝜆1, . . . , 𝜆𝑑)是一個對角矩陣(𝜆𝑖, 𝑖 = 1, . . . ), 𝑑 是特徵值, UU = [u1, . . . , u𝑑] 是一個正交矩陣的列u𝑖相對應的特徵向量𝜆𝑖。**通過EIG我們可以把矩陣的冪變換成特徵值的冪。因此,我們有
在這裏插入圖片描述
        這裏𝛼是一個正實數,F(Λ) =diag(𝑓(𝜆1), . . . , 𝑓(𝜆𝑑)),𝑓(𝜆𝑖)特徵值的冪:
在這裏插入圖片描述
        受到元素冪歸一化技術的啓發,在MPN之後,我們可以進一步執行規範化矩陣ℓ2−norm(M -ℓ2)或matrix Frobenius norm(M-Fro)。矩陣P的矩陣 ℓ2−norm(也被稱爲光譜範數)用P2\parallel P \parallel_2表示, 如果P是協方差矩陣,則P的最大特徵值等於P的最大奇異值。矩陣P的matrix Frobenius norm有多種定義方法如:

        𝜆𝑖是P的奇異值。因此,我們有:
在這裏插入圖片描述
        當𝛼= 1時,第一個恆等式和第二個恆等式分別被分解爲M-ℓ2和M-Fro的歸一化。

3.2 反向傳播

        我們使用矩陣反向傳播的方法,計算損失函數 ll 對某層輸入矩陣的偏導數。它建立在矩陣微積分理論的基礎上,在考慮正交性、對角性和對稱性等不變量的情況下,將結構化的非線性矩陣函數包含在神經網絡中。
        讓我們考慮 lU\frac{{\rm∂}l}{{\rm ∂}U} \quadl\frac{{\rm ∂}l}{{\rm ∂}\land} \quad的推導。鑑於 lQ\frac{{\rm∂}l}{{\rm ∂}Q} \quad傳播自頂部FC層。鏈式法則的表達式是:
在這裏插入圖片描述
        其中,dQ爲矩陣Q的變化量。從公式(3)可知:
在這裏插入圖片描述
在這裏插入圖片描述
        經過一些安排,我們得到:
在這裏插入圖片描述
        其中,AdiagA_{diag}表示保存A的對角線元素的操作,同時將所有非對角線元素設置爲0。對於MPN+ M -ℓ2和或MPN+ M-Fro, l\frac{{\rm ∂}l}{{\rm ∂}\land} \quad分別採取以下形式:
在這裏插入圖片描述
        然後,對於lU\frac{{\rm∂}l}{{\rm ∂}U} \quadl\frac{{\rm ∂}l}{{\rm ∂}\land} \quad,讓我們通過公式(2)計算lP\frac{{\rm∂}l}{{\rm ∂}P} \quad,鏈式法則是
在這裏插入圖片描述在這裏插入圖片描述
        注意,U應該滿足正交約束。之後:
在這裏插入圖片描述
        ∘表示matrix Kronecker product。
在這裏插入圖片描述
        最後,對於lP\frac{{\rm∂}l}{{\rm ∂}P} \quad,我們得到了損失函數關於輸入矩陣X的梯度,它的形式如下:
在這裏插入圖片描述

4. MPN-COV的機制

        本節解釋MPN-COV的機制。我們從統計和幾何的角度進行解釋,並從計算的角度進行定性分析。

4.1 MPN-COV相當於魯棒的協方差估計

        樣本協方差等於正態分佈隨機向量的極大似然估計(MLE)的解。雖然MLE被廣泛用於估計協方差,但衆所周知,當數據的樣本是大維度、小尺寸時,MLE的表現很差。這就是我們的協方差彙集所面對的:在最先進的卷積神經網絡中,最後一個卷積層輸出維數大於512的小於200個特徵,因此樣本協方差總是秩虧的,使得魯棒估計成爲關鍵。
        小樣本條件下的大維度協方差的魯棒估計在統計學、信號處理和生物學領域都引起了廣泛的關注。Stein首次提出了樣本協方差特徵值的收縮原理。Ledioit和Wolf證明了最大的特徵值是系統向上偏置的,而最小的特徵值是向下偏置的,因此引入了最佳線性收縮估計器,其中估計的協方差矩陣Q是樣本協方差P與單位矩陣的線性組合(如:Q = 𝛼1P + 𝛼2I)。這種方法與 𝛼𝑖決定通過交叉驗證被廣泛用於抵消協方差矩陣的病態。我們的MPN-COV非常符合收縮原理,即,收縮最大的樣本特徵值和拉伸最小的特徵值,如後面4.3節所示。它只依賴於樣本的協方差,爲每個特徵值提供個性化的收縮強度。
命題1:MPN-COV with 𝛼= 1 /2是唯一解的正規化的協方差矩陣的標定:
在這裏插入圖片描述
        Σ是半正定限制,
𝐷vN (A, B) = tr((日誌(A)−日誌(B))−A + B)
        是馮諾依曼散度矩陣。命題1立即通過將[[31],定理1]中的正則化參數設置爲1而得到。注意,經典的MLE只包括公式(12)右邊的前兩項,而穩健的vN-MLE估計量引入了第三項,約束協方差矩陣類似於單位矩陣。已經證明,vN-MLE優於其他收縮方法和正則化MLE方法。

4.2 MPN-COV近似地利用了黎曼幾何(Riemannian Geometry)

        𝑑×𝑑協方差矩陣的空間,用下符號表示:

𝑆𝑦𝑚
是黎曼流形,對該流形進行操作時應考慮幾何結構。主要有兩種黎曼度量,即仿射黎曼度量和Log-E度量。前一個度量是仿射不變的,但是計算效率低,並且是耦合的,不能擴展到大規模設置。相比之下,最常用的Log-E度量是相似不變的,計算效率高,可伸縮到大規模問題,因爲它是一個解耦的度量。
        MPN-COV的度量對應於冪歐幾里德(Pow-E)度量。它與Log-E度量密切相關,如下面的命題所示:
命題2:對於任意兩個協方差矩陣PP, P~\tilde{P},
在這裏插入圖片描述功率度量的極限,𝛼> 0時0 = log-E度量方法。
        這個結論第一次被提到是在[7],但是沒有證據。在這裏,我們簡要地證明這一說法。
在這裏插入圖片描述
根據P的特徵值分解得到:
在這裏插入圖片描述在這裏插入圖片描述
        關於命題2的界限的同一性,立即通過回憶而得到:
在這裏插入圖片描述
        因此,提出的MPN-COV可以被視爲大約利用黎曼幾何的
在這裏插入圖片描述
        看起來Log-E度量比powe度量更好,因爲前者度量的是真實的測地線距離,而後者度量的是它的近似值。我們認爲這不是我們的問題,原因有二。一是,Log-E度量要求所涉及的特徵值是嚴格正的[1,34],而powe度量允許非負的特徵值。log-E的常見的方法是添加一個小的正數 𝜖 爲改善數值穩定性特徵值。雖然 𝜖 可以決定通過交叉驗證,很難尋求特定𝜖適合大量的圖片。例如,[11]建議𝜖= 10e−3,這將消除特徵值小於10−3。綜上所述,卷積的高級特徵分佈是這樣的,對數會帶來副作用,我們將在下一小節定性分析。

4.3 Qualitative Analysis

        本節從計算的角度定性地分析了矩陣冪和對數對樣本協方差特徵值的影響。矩陣對數可以看作是一種歸一化,非線性地應用於特徵值:
在這裏插入圖片描述在這裏插入圖片描述
        下面我們將專注於冪函數𝑓(𝜆)=𝜆^(1/2)和對數𝑓(𝜆)=log(𝜆)。
        我們首先研究樣本協方差的特徵值的經驗分佈。我們從2012年的ImageNet訓練集中隨機選擇30萬張圖像。對於每幅圖像,我們提取第5個conv. (Conv5)層(使用ReLU)的輸出,使用在ImageNet 2012上預先訓練的AlexNet模型,估計樣本協方差P,然後使用單精度浮點格式的EIG計算其特徵值。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章