1、梯度消失和梯度爆炸

2、隨機初始化模型參數

2.1、pytorch的默認隨機初始化

隨機初始化模型參數的方法有很多。在線性迴歸的簡潔實現中，我們使用torch.nn.init.normal_()使模型net的權重參數採用正態分佈的隨機初始化方式。不過，PyTorch中nn.Module的模塊參數都採取了較爲合理的初始化策略（不同類型的layer具體採樣的哪一種初始化方法的可參考源代碼），因此一般不用我們考慮。

2.1.1Xavier隨機初始化

還有一種比較常用的隨機初始化方法叫作Xavier隨機初始化。假設某全連接層的輸入個數爲a，輸出個數爲b，Xavier隨機初始化將使該層中權重參數的每個元素都隨機採樣於均勻分佈

它的設計主要考慮到，模型參數初始化後，每層輸出的方差不該受該層輸入個數影響，且每層梯度的方差也不該受該層輸出個數影響。

3、考慮環境因素

3.1、協變量偏移

這裏我們假設，雖然輸入的分佈可能隨時間而改變，但是標記函數，即條件分佈P（y∣x）不會改變。雖然這個問題容易理解，但在實踐中也容易忽視。

3.2、標籤偏移

當我們認爲導致偏移的是標籤P（y）上的邊緣分佈的變化，但類條件分佈是不變的P（x∣y）時，就會出現相反的問題。當我們認爲y導致x時，標籤偏移是一個合理的假設。例如，通常我們希望根據其表現來預測診斷結果。在這種情況下，我們認爲診斷引起的表現，即疾病引起的症狀。有時標籤偏移和協變量移位假設可以同時成立。例如，當真正的標籤函數是確定的和不變的，那麼協變量偏移將始終保持，包括如果標籤偏移也保持。有趣的是，當我們期望標籤偏移和協變量偏移保持時，使用來自標籤偏移假設的方法通常是有利的。這是因爲這些方法傾向於操作看起來像標籤的對象，這（在深度學習中）與處理看起來像輸入的對象（在深度學習中）相比相對容易一些。

病因（要預測的診斷結果）導致症狀（觀察到的結果）。

訓練數據集，數據很少只包含流感p(y)的樣本。

而測試數據集有流感p(y)和流感q(y)，其中不變的是流感症狀p(x|y)。

3.3、概念偏移

另一個相關的問題出現在概念轉換中，即標籤本身的定義發生變化的情況。這聽起來很奇怪，畢竟貓就是貓。的確，貓的定義可能不會改變，但我們能不能對軟飲料也這麼說呢？事實證明，如果我們周遊美國，按地理位置轉移數據來源，我們會發現，即使是如圖所示的這個簡單術語的定義也會發生相當大的概念轉變。

如果我們要建立一個機器翻譯系統，分佈P（y∣x）可能因我們的位置而異。這個問題很難發現。另一個可取之處是P（y∣x）通常只是逐漸變化。

頂尖菜鳥

發佈了97 篇原創文章 · 獲贊 5 · 訪問量 9321

私信關注

AI公益學習-梯度消失、梯度爆炸

1、梯度消失和梯度爆炸

2、隨機初始化模型參數

2.1、pytorch的默認隨機初始化

2.1.1Xavier隨機初始化

3、考慮環境因素

3.1、協變量偏移

3.2、標籤偏移

3.3、概念偏移

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

Datawhale 零基礎入門CV - Task 03 字符識別模型

Datawhale 零基礎入門CV - Task 05 模型集成

Datawhale 零基礎入門CV - Task 04 模型訓練與驗證

crypto安裝

Datawhale 零基礎入門CV - Task 02 數據讀取與數據擴增

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結