爲何不可將神經網絡的參數全都初始化成0？

原創

illusion_小驴

2020-06-19 09:16

爲何不可將神經網絡的參數全都初始化成0？

證明如下：

如圖所示。所以其實可以看出，當你把所有參數都初始化爲0的時候，同一hidden layer的參數的更新幅度是一樣的。又因爲它們的初值也一樣（都是0），所以導致隱藏層的參數永遠一樣，這就意味着你同一隱藏層每個神經元輸入一樣、經過同樣的sigmoid激活，又得到一樣的輸出（設a4=a5=a），然後再乘以一樣的參數。對於圖中x4、x5組成的hidden layer而言，由於w64=w65=w，所以可將w提出來，即

$$x_6 = w_{64}a_4 + w_{65}a_5 = w(a_4+a_5) = w*a*2$$

所以，看到了吧。你同一個隱藏層裏即使有n個神經元，其作用也只不過是相當於在輸出結果上乘以了“n”。這樣的情況在每個隱藏層都會出現，每個隱藏層都退化成一個神經元，那麼結果就和線性迴歸沒什麼區別了。

再進一步更確切地說，其實你只需將第一層input layer的參數（本例中爲[w41,w42,w43,w51,w52,w53]）都設爲0，然後將後續每層隱藏層的參數都設成同一個數（不一定都是0），就可以造成這種，輸入都一樣，經一樣的激活函數激活得到一樣的輸出，再乘以一樣的權重傳遞給下一個hidden layer一樣的值只有的效果。這肯定是你不想要的。

仔細想想，這種情況到底是怎麼產生的呢？其實還是因爲“0”這個奇妙的數字——是誰，可以讓不同的input，乘以它之後，全都變得一樣呢？只有0能做到，這也是0的威力。所以我們以後初始化的時候，還是離“0”遠一點爲妙呀！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

tqdm模塊在處理文件閱讀時，如何顯示出進度條？

問題提出最近，使用tqdm模塊，對於大文件的閱讀進行進度監控。然而我發現有個問題，即在tqdm模塊使用一定沒錯的情況下，進度條死活打印不出來。情況如下：如上圖所示，這樣read file是沒有進度條顯示的。問題解決先說爲什麼，再

illusion_小驴

2020-07-06 17:13:31

python技巧分享（四）

這是一個系列文章，主要分享python的使用建議和技巧，每次分享3點，希望你能有所收穫。 1 如何打印更易讀的類不推薦方式 class Point(object): def __init__(self, x, y):

2020-07-06 04:20:59

python技巧分享（七）

這是一個系列文章，主要分享python的使用建議和技巧，每次分享3點，希望你能有所收穫。 1 is 和 == 的區別 import os str1 = os.__name__ str2 = "os" print str1 #

2020-07-06 04:20:49

caffe中增加自己的layer

假設新增加的層命名爲：NEW 1. 在src/proto的LayerParameter 的 LayerType下加 NEW= 數字； 2. 在src/layer_factory.cpp中，加 case LayerParam

2020-07-07 08:02:37

Fast RCNN ubuntu下安裝筆記

微軟研究院大神Ross Girshick新作：fase CNN，測試速度比RCNN快200倍。文章：http://arxiv.org/pdf/1504.08083v1.pdf 代碼：https://github.com/rbgirshi

2020-07-07 08:02:37

python深度學習---生成式對抗網絡（GAN）

生成式對抗網絡（GAN，generative adversarial network）由 Goodfellow 等人於 2014 年提出，它可以替代VAE來學習圖像的潛在空間。 ''' # 它能夠迫使生成圖像與真實圖像在統計上幾乎無

2020-07-06 21:30:11

深度學習設計

損失函數設計： 1、目標檢測領域：不提倡使用預測框座標與GT座標的差值進行損失函數統計，因爲座標差值會受座標尺寸大小影響，座標尺寸大的時候，差值相對大，座標尺寸小，差值相對小。改進：使用IOU，IOU不受座標尺寸因素的影響。（兩種座

2020-07-06 19:28:01

cuda error

1. 問題描述想把從圖像手工生成的特徵和經過backbone提取的特徵concatenate起來再進入網絡後面的層： x_added_coord = torch.cat([x_backbone, x_coord], 1) 報錯： Ru

2020-07-05 20:39:46

pytorch Dataloader 速度慢

1. 問題描述 Dataloader每讀完一個batch中間會間隔2s左右，很浪費時間，而且確定不是由於Dataset的__getitem__()複雜導致的。並且有一個規律，如果設置num_works=4，會出現4個batch一批很快，然

2020-07-05 20:39:35

深度學習基本術語

1、關於一個事件或對象的描述，稱爲一個“示例”（instance）或“樣本”（sample），“示例”或“樣本”的集合稱爲一個“數據集”（data set）。例如，（色澤=青綠；根蒂=蜷縮；敲聲=濁響），（色澤=烏黑；根蒂=

2020-07-05 06:12:43

Deep Learning科普

首先，要由人工智能之父圖靈說起。圖靈曾經有個夢想卸載《計算機器與智能》（1950）一文中，如果有一天，計算機能夠做到，隔着牆，你根本分不清對面和你交流是一個人還是計算機，那麼這臺計算機就具有了人工智能。接下來的半個世紀裏

生命不止coding不息

2020-07-04 20:52:07

理解CNN神經網絡

首先構建好用於學習的模型，也就是各個層用什麼激活函數、輸出層的如softmax函數、各層神經元的個數、損失函數等等。然後使用訓練數據集來不斷的調整模型的參數（學習）。具體怎麼做的？首先設定一個初始參數。然後開始學習，計

2020-07-04 12:09:04

What is Back Propaganda？

反向傳播用來計算導數，但這個不是反向傳播的特性，這個導數怎麼算是要自己來寫的！把每一層的結點的導數計算公式封裝在結點內部後，再來使用反向傳播，反向傳播的特性就是：鏈式法則，或者說反向傳播是符合鏈式法則的，有了這個前提，我們纔可以

2020-07-04 12:09:04

caffe-車尾識別

caffe-車尾識別 opencv，caffe，傳統方法和深度方法結合 http://weibo.com/PVl32019.01.075t3p/2313474325750605004851/wenda_home http://weibo.

2020-07-04 11:12:41

whats is the difference between train, validation and test set, in neural networks?

The training and validation sets are used during training. for each epoch for each training data instance

2020-07-04 11:12:29

24小時熱門文章

最新文章

最新評論文章