隱藏層的激活值受到權重初始值的影響,進而關係到神經網絡的學習能否成功,所以權重初始值的設定至關重要。
1. Xavier 初始值
Xavier的論文中提出的設定值, 不僅考慮了前一層的輸入節點數量,還考慮了下一層的輸出節點數量。
- 在 Caffe 等框架中,對 Xavier 初始值進行了簡化,如果前一層的結點數爲 ,則初始化值使用標準差爲 的高斯分佈。
適用激活函數
- sigmoid
- tanh
【注】Xavier初始值是以激活函數是線性函數爲前提而推導出來的。因 sigmoid 函數和 tanh 函數左右對稱,且中央附近可以視作線性函數,因此適合 Xavier 初始值。
2. He 初始值
He 初始值也稱作 ReLu 專用權重初始值。
- 當前一層的結點數爲 時,He 初始值使用標準差爲 的高斯分佈。
適用激活函數
- ReLu