lecture6,Training Neural Networks, Part I

1,to be done

1,slides 21頁中爲什麼w 的梯度可以爲全負值
(我認爲只能爲全正值,因爲x 爲正,wx+bw 的gradient爲x ,而activation function對wx+b 的gradient爲正,由鏈式法則可知activation function對x的gradient應爲正值.)

2,使用Xavier的原因

3,當模型太大時,cross validation的必要性

2,Notes

1,神經網絡訓練步驟:


  1. preprocess data :將data normalize到 zero mean.有兩種方法:第一種是減去使用每一個維度的數據的平均值,即subtract the mean image;第二種是減去每一種通道(r,g,b)的平均值,即subtract the per channel mean。

  2. weight Initialization :對於 tanh 採用Xavier initialization(np.random.randn(fan_in,fan_out)/np.sqrt(fan_in))對於relu採用改進版的Xavier initialization np.random.randn(fan_in,fan_out)/np.sqrt(fan_in/2)

  3. batch normalization.Usually inserted after Fully Connected or Convolutional layers,
    and before nonlinearity.
  4. Hyperparameter 的優化,從coarse到fine .

First stage: only a few epochs to get rough idea of what params work
Second stage: longer running time, finer search (repeat as necessary)

發佈了57 篇原創文章 · 獲贊 4 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章