讀文獻 THE HSIC BOTTLENECK: DEEP LEARNING WITHOUT BACK-PROPAGATION 閱讀心得

題目:THE HSIC BOTTLENECK: DEEP LEARNING WITHOUT BACK-PROPAGATION

Abstract

這篇文章介紹了深度學習訓練中的HSIC瓶頸(希爾伯特-施密特獨立準則)HSIC瓶頸是傳統反向傳播的一種替代方法,它有許多明顯的優點。這種方法有利於並行處理,並且需要的操作要少得多。它不受爆炸或消失梯度的影響。它在生物學上比反向傳播更合理,因爲不需要對稱反饋。我們發現HSIC瓶頸在MNIST/FashionMNIST/CIFAR10分類上提供了與交叉熵目標反向傳播相當的性能,即使不鼓勵系統使輸出類似於分類標籤。附加一個使用SGD(無反向傳播)訓練的單層會導致最新的性能。
直觀地說,IB主體在壓縮有關輸入數據的信息時保留關於標籤的隱藏表示的信息。

Introduction

當前深度學習的誤差反向傳播算法在生物學上通常被認爲是不合理的[1,2,3]。在實際應用中,反向傳播和相關的隨機梯度下降算法SGD及其變體非常耗時,存在梯度消失和爆炸的問題,需要跨層的順序計算,並且通常需要探索學習率和其他超參數。這些考慮正在推動對理論和實際備選方案的研究[4]。
通過最大化隱藏表示和標籤之間相互信息的代理項,同時最小化隱藏表示和輸入之間的相互依賴。
我們進一步證明,用這種方法訓練的網絡的隱藏單元形成了有用的表示。具體地說,可以通過凍結無反向傳播訓練的網絡,並使用傳統的SGD將表示轉換爲所需的格式來附加和訓練單層網絡,從而獲得完全競爭的精度。

提出了一種不需要反向傳播的深度網絡訓練方法。它包括使用信息瓶頸的近似值來訓練網絡。由於隨機變量間互信息的計算困難,本文采用了基於非參數核的Hilbert-Schmidt獨立準則(HSIC)來描述不同層的統計依賴性。也就是說,對於每個網絡層,我們同時最大化該層和所需輸出之間的HSIC,並最小化該層和輸入之間的HSIC。與標準的反向傳播算法相比,這種HSIC瓶頸的使用導致了訓練過程中的快速收斂。由於HSIC瓶頸直接作用於連續隨機變量,它比傳統的基於binning的信息瓶頸方法更具吸引力。該方法使用一個淺層的經過常規訓練的後處理網絡將得到的表示轉換爲輸出標籤的形式。在實際應用中,我們使用一個由多個層組成的網絡,以可變維數(完全連接層)或不同核數(卷積層)爲起點。

Related Work

反向傳播的生物學合理性是一個備受爭議的話題,也是探索其他方法的一個動機。一個問題是,突觸的重量是根據下游的錯誤來調整的,這在生物系統中是不可行的[26,27]。另一個問題是前饋推理和反向傳播是相同的
權重矩陣。這就是所謂的重量運輸問題[28,11]。此外,反向傳播梯度是線性計算的,但大腦有複雜的神經連接,在計算前饋時必須停止反向傳播(反之亦然)[1]。
信息理論[29]是學習理論研究的基礎[8,30,31]。信息瓶頸(IB)原理[7]推廣了最小充分統計量的概念,表達了預測輸出所需信息和保留的輸入信息之間隱藏表示的折衷。

直觀地說,IB主體在壓縮有關輸入數據的信息時保留關於標籤的隱藏表示的信息.
HSIC是再生核Hilbert空間(RKHS)中分佈之間互協方差算子的Hilbert-Schmidt範數。
與互信息不同,HSIC沒有信息論量(bits或nats)的解釋。另一方面,HSIC不需要密度估計,計算簡單可靠。像HSIC這樣的核分佈嵌入方法也可以抵抗異常值,這可以通過考慮高斯核下異常值的影響來看出。經驗估計值以與數據維數無關的速率1=pn收斂到總體HSIC值[33],這意味着它部分規避了維數的詛咒。

原則上,HSIC可以發現變量之間的任意依賴關係,但在實際應用中,對於有限數據,HSIC核中σ參數的選擇更強調某些尺度上的關係。直觀地說,當兩個數據點x;y的差足夠小或足夠大時,它們並沒有被很好地區分,以至於它們位於高斯函數的小斜率部分。這通常是通過基於數據[35,36]中間距離選擇核σ,或者通過參數搜索(如網格搜索[37]或隨機搜索[38])來處理的。

此外,核分佈嵌入方法HSIC也可以抵抗異常值,這可以通過考慮高斯核下異常值的影響來看出。
利用HSIC研究了自編碼器的泛化特性。2018)使用HSIC來限制潛在空間搜索,以限制聚合變分後驗。(Vepakomma等人。2019)使用距離相關性(HSIC的替代公式)從醫療培訓數據中刪除不必要的私人信息。

Proposed Method

本HSIC訓練網絡的輸出包含分類所需的信息,但不一定是正確的形式首先,如果輸出是一個hot,可以簡單地對其進行排列,使其與訓練標籤對齊。在第二種方案中,我們在凍結的瓶頸訓練網絡中附加一個單層和softmax輸出,並使用無反向傳播的SGD訓練附加層。這一步驟稱爲位置訓練。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
公式(6)、(7)表明,最優隱藏表示Zi在獨立於不必要的輸入細節和依賴於輸出之間找到平衡。理想情況下,當(6)收斂時,預測標籤所需的信息被保留,而允許過度擬合的不必要信息被移除。

我們使用塊座標下降法在每一層獨立地優化方程(6),而不使用梯度傳播
在這裏插入圖片描述
如實驗部分所示,在某些實驗中,HSIC瓶頸訓練往往會產生一個One-hot輸出。這啓發我們利用HSIC瓶頸目標直接解決分類問題。這是通過設置最後一層ZL的維度來實現的,以匹配類的數量(例如,dL=dy)。由於所得到的激活通常是相對於標籤的排列(例如,數字0的圖像可能激活第四輸出層條目),我們只需通過選擇特定類的輸入上具有最高激活的輸出作爲該類的輸出來找到固定的排列。
原則上,HSIC是統計獨立性的一個強有力的度量,然而在實踐中,即使使用規範化形式(5),結果也在一定程度上取決於所選擇的σ參數。爲了解決這一問題,我們將具有不同σ的無格式訓練網絡組合起來,然後聚合得到的隱藏表示。這種多尺度網絡架構如圖1b所示,並且具有
在這裏插入圖片描述
然而,學習收斂是一個最終的興趣量。這個數量對於反向傳播或HSIC瓶頸都是未知的,並且考慮到這兩種方法的根本不同特徵,它可能是不同的。由於消除了反向傳播的需要,HSIC瓶頸更適合於層並行計算。

Experiment

在這一部分中,我們報告了幾個探索和驗證HSIC訓練網絡概念的實驗。首先,爲了激勵我們的工作,我們繪製了一個簡單模型在反向傳播訓練中的HSIC瓶頸值和激活分佈。然後,我們將展示無格式訓練如何產生一個熱結果,直接準備好使用淺或深網絡進行分類。接下來,我們比較了不同層數網絡上的反向傳播和格式訓練。在接下來的實驗中,我們考慮了HSIC訓練對格式訓練的價值以及超參數σ的影響。最後,我們簡要討論了HSIC訓練在ResNet等其它網絡體系結構中的應用。

實驗中,我們在MNIST/Fashion MNIST/CIFAR10數據集上使用了具有批處理規範化的標準前饋網絡(Ioffe和Szegedy 2015)。所有實驗,包括標準反向傳播、未格式化訓練和格式訓練,都使用一個簡單的SGD優化器。將HSICbottleneck的係數β和核尺度因子σ分別設置爲500和5,在經驗上平衡了壓縮和分類任務可用的相關信息。

在考慮使用“HSIC”作爲訓練目標之前,我們首先在傳統深度網絡訓練的背景下驗證其相關性(圖2)。利用反向傳播技術對一個簡單網絡的輸入輸出和隱藏激活之間的nHSIC進行監測,結果表明,隨着表徵的形成,nHSIC(Y;ZL)在早期訓練中迅速增加,而nHSIC(X;ZL)則迅速下降。nHSIC(Y;ZL)的值隨網絡深度而變化(圖2e),並取決於激活的選擇(圖2b)。此外,它與訓練精度的提高明顯平行(圖2c,圖2f)。總之,圖2示出了一系列不同的網絡遵循信息瓶頸原理。
在這裏插入圖片描述
在這裏插入圖片描述
關於深層神經網絡,一個有趣的問題是這些層疊層如何有效地從輸入和標籤中學習信息。爲了探索這個問題,我們修正了非格式化訓練網絡的所有超參數,除了訓練時間(曆元數)。我們期望爲更多的時代訓練未格式化的訓練網絡將導致隱藏的表示,更好地表示預測標籤所需的信息,從而在格式訓練階段獲得更高的精度。圖5示出了該實驗的結果,具體地,在由1、5和10個階段訓練的五層無格式訓練網絡上的格式訓練的準確性和丟失。從圖5可以看出,在SGD格式訓練開始時,無格式訓練網絡可以提高精度。另外,0隨着未格式化訓練網絡訓練時間的延長,formattraining產生更高的精度。

在這裏插入圖片描述
在這裏插入圖片描述
結果表明,在多尺度網絡上進行的格式訓練優於其他實驗,表明它在格式訓練階段提供了與相應尺度相關的附加信息。這也表明單個σ不足以捕獲這些網絡中的所有依賴項。把σ當作一個可學習的參數留給以後的工作。
在這裏插入圖片描述
在圖7中,我們展示了在初始時間段的多個數據集上具有五個卷積殘差塊的網絡的測試性能。每個實驗包括五個未格式化的訓練階段,然後使用單層分類器網絡進行格式訓練,並與標準的反向傳播訓練階段進行比較。

結果表明,利用非格式化訓練網絡的不同表現形式,格式訓練能更快地收斂到高精度性能。

圖7的最終測試精度分別爲(98.8%,88.3%,59.4%)和(98.4%,87.6%,56.5%)對於反向傳播訓練網絡,對於MNIST,FashionMNIST和CIFAR10。CIFAR10的結果遠遠低於最先進的性能,因爲我們沒有使用最先進的架構。然而,HSICbottleneck網絡在收斂性方面提供了顯著的提升。

Conclusion

本文提出了一種不使用反向傳播的深層神經網絡訓練方法。該方法受到信息瓶頸的啓發,可以看作是一種近似,但是(據我們所知)是第一種利用HSIC作爲代理來回避在深神經網絡中計算互信息的方法。幾個標準分類問題的“無格式”HSIC瓶頸訓練產生一個One-hot,可以直接排列來執行分類,其精度接近於同一體系結構的標準反向傳播訓練。通過使用輸出作爲格式訓練階段的表示,進一步提高了性能,在格式訓練階段中,使用常規SGD附加和訓練單層(和softmax),但不使用反向傳播。HSIC瓶頸訓練網絡通過去除無關信息並保留對目標任務重要的信息,提供了良好的隱藏表示。

與傳統的反向傳播相比,HSIC瓶頸培訓有幾個好處:

•能夠訓練反向傳播訓練失敗的深層網絡(圖4);

•它緩解了傳統反向傳播中的消失和爆炸梯度問題,因爲它不使用鏈式規則逐層解決問題;

•它消除了向後清掃的需要;

•它可能允許使用分層塊座標下降並行訓練層;

•儘管我們的方法在生物學上並不合理,但它確實解決了重量傳遞問題(Lillicrap等人。2016)和更新鎖定問題。

參考文獻

https://arxiv.org/abs/1908.01580

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章