AI公益學習-梯度消失、梯度爆炸

1、梯度消失和梯度爆炸

在這裏插入圖片描述

2、隨機初始化模型參數

在這裏插入圖片描述

2.1、pytorch的默認隨機初始化

隨機初始化模型參數的方法有很多。在線性迴歸的簡潔實現中,我們使用torch.nn.init.normal_()使模型net的權重參數採用正態分佈的隨機初始化方式。不過,PyTorch中nn.Module的模塊參數都採取了較爲合理的初始化策略(不同類型的layer具體採樣的哪一種初始化方法的可參考源代碼),因此一般不用我們考慮。

2.1.1Xavier隨機初始化

還有一種比較常用的隨機初始化方法叫作Xavier隨機初始化。 假設某全連接層的輸入個數爲a,輸出個數爲b,Xavier隨機初始化將使該層中權重參數的每個元素都隨機採樣於均勻分佈
在這裏插入圖片描述
它的設計主要考慮到,模型參數初始化後,每層輸出的方差不該受該層輸入個數影響,且每層梯度的方差也不該受該層輸出個數影響。

3、考慮環境因素

3.1、協變量偏移

這裏我們假設,雖然輸入的分佈可能隨時間而改變,但是標記函數,即條件分佈P(y∣x)不會改變。雖然這個問題容易理解,但在實踐中也容易忽視。
在這裏插入圖片描述

3.2、標籤偏移

當我們認爲導致偏移的是標籤P(y)上的邊緣分佈的變化,但類條件分佈是不變的P(x∣y)時,就會出現相反的問題。當我們認爲y導致x時,標籤偏移是一個合理的假設。例如,通常我們希望根據其表現來預測診斷結果。在這種情況下,我們認爲診斷引起的表現,即疾病引起的症狀。有時標籤偏移和協變量移位假設可以同時成立。例如,當真正的標籤函數是確定的和不變的,那麼協變量偏移將始終保持,包括如果標籤偏移也保持。有趣的是,當我們期望標籤偏移和協變量偏移保持時,使用來自標籤偏移假設的方法通常是有利的。這是因爲這些方法傾向於操作看起來像標籤的對象,這(在深度學習中)與處理看起來像輸入的對象(在深度學習中)相比相對容易一些。

病因(要預測的診斷結果)導致 症狀(觀察到的結果)。

訓練數據集,數據很少只包含流感p(y)的樣本。

而測試數據集有流感p(y)和流感q(y),其中不變的是流感症狀p(x|y)。

3.3、概念偏移

另一個相關的問題出現在概念轉換中,即標籤本身的定義發生變化的情況。這聽起來很奇怪,畢竟貓就是貓。的確,貓的定義可能不會改變,但我們能不能對軟飲料也這麼說呢?事實證明,如果我們周遊美國,按地理位置轉移數據來源,我們會發現,即使是如圖所示的這個簡單術語的定義也會發生相當大的概念轉變。
在這裏插入圖片描述
如果我們要建立一個機器翻譯系統,分佈P(y∣x)可能因我們的位置而異。這個問題很難發現。另一個可取之處是P(y∣x)通常只是逐漸變化。

發佈了97 篇原創文章 · 獲贊 5 · 訪問量 9321
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章