lecture6,Training Neural Networks, Part I

原創

2020-02-20 17:50

1,to be done

1,slides 21頁中爲什麼w 的梯度可以爲全負值
（我認爲只能爲全正值，因爲x 爲正，wx+b 對w 的gradient爲x ,而activation function對wx+b 的gradient爲正,由鏈式法則可知activation function對x的gradient應爲正值.）

2,使用Xavier的原因

3，當模型太大時，cross validation的必要性

2,Notes

1,神經網絡訓練步驟：

preprocess data :將data normalize到 zero mean.有兩種方法：第一種是減去使用每一個維度的數據的平均值，即subtract the mean image;第二種是減去每一種通道（r,g,b）的平均值，即subtract the per channel mean。
weight Initialization :對於 tanh 採用Xavier initialization（np.random.randn(fan_in,fan_out)/np.sqrt(fan_in)）對於relu採用改進版的Xavier initialization np.random.randn(fan_in,fan_out)/np.sqrt(fan_in/2)
batch normalization.Usually inserted after Fully Connected or Convolutional layers,
and before nonlinearity.
Hyperparameter 的優化，從coarse到fine .

First stage: only a few epochs to get rough idea of what params work
Second stage: longer running time, finer search (repeat as necessary)

發佈了57 篇原創文章 · 獲贊 4 · 訪問量 2萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【記錄】爲什麼在CNN的Batch Norm中對C個channel進行歸一化

下面是cs231n-assignment2中的Spatial Batch Norm的介紹中對於此處空間歸一化的解釋，爲什麼對shape爲NCHW的圖像數據進行Batch Norm時需要計算NHW維度的mean和var If th

不跑步就等肥

2020-07-07 15:12:31

Kaggle手寫數字識別（Digit Recognizer）記錄

競賽地址 https://www.kaggle.com/c/digit-recognizer 苦於學了cs231n和pytorch之後沒有東西拿來練手，就去kaggle上找了一個入門競賽，MNIST手寫數字識別，這個比賽把MN

不跑步就等肥

2020-07-07 15:12:31

Stanford-CS231n-assignment2-BatchNormalization

文章目錄1- layers.py2- layer_utils.py加入四個求解batch/layer norm的函數3- fc_net.py的完善4- Batchnorm for deep networks訓練結果4.1- bat

不跑步就等肥

2020-07-07 15:12:31

Pytorch搭建神經網絡基本步驟（文末附pytorch實現AlexNet）

文章參考: http://pytorch123.com/SecondSection/neural_networks/ cs231n assignment2 - http://cs231n.github.io/assignment

不跑步就等肥

2020-07-07 15:12:31

cs31n_lesson6_7

1.生物學解釋神經網絡中的神經元(neurons)：從輸入（如圖像）得到的一個輸出最小單元稱之爲一個神經元。具體一點說，對於一個雙層網絡（1輸入、1中間層、1輸出），如果輸入爲一個樣本，則隱藏層的維數H+最終輸出維度數C,就是神

2020-06-30 01:02:50

cs231nLesson1-3

cs231n每半年更新一次，最近看了新的版本，整理了下之前學習的筆記和作業。 .Diffuculty of Recogonition: illumination, deformation, Background Clutter,

2020-06-30 01:02:50

深度學習術語

一些名詞： depth/depthcolumn/fibre——K:疊加的卷積核的個數。每個卷積覈對一層圖像I1進行處理得到I2（activationmap），下一個卷積核在I2基礎上進行處理得到I3（activationmap）,

2020-06-30 01:02:50

cs231n'18：Lecture 2 | Image Classification Pipeline

Lecture 2的前半部分講Course Note 1裏面的內容，包括KNN和Validation。要點請參考Course Note 1的筆記。後半部分給Course Note 2裏面的Linear Classification開個頭。

2020-06-29 16:52:58

cs231n'18：Lecture 3 | Loss Functions and Optimization

Lecture 3講Course Note 2和Course Note 3裏面的內容.前一部分講SVM和Softmax loss function的計算。要點請參考Course Note 2的筆記。聽完這一節部分可以去做SVM和Soft

2020-06-29 16:52:58

cs231n'18： Course Note 3

Optimization: Stochastic Gradient Descent 這一節主要講optimization的相關內容。重點在於各種grads的實現，特別是與矩陣相關的grads的實現，包括公式推導和代碼實現。note

2020-06-29 16:52:58

cs231n'18：Lecture 6 | Training Neural Networks I

這一節講Course Note 5/6和7中的一部分。這是這門課中講的最爛的一節，內容雜亂，沒有重點。既然ReLU是最常用的，爲什麼又拿tanh舉例子；BN這麼重要的問題沒講明白，下面同學提了一大堆問題。看看Course Note 5筆記

2020-06-29 16:52:58

cs231n'18： Course Note 2

Linear classification: Support Vector Machine, Softmax Linear Classification 實現image classification更常用的方法是採用score f

2020-06-29 16:52:55

cs231n'18：Lecture 5 | Convolutional Neural Networks

Lecture 5 講的是 Course Note 9 裏面的內容，建議先聽 Lecture 6和7，然後Lecture 5和9一起聽。Lecture 5 鏈接

2020-06-29 16:52:55

cs231n'18：Lecture 7 | Training Neural Networks II

Lecture 7主要講note 7中的優化問題，這個小夥子比那個小姑娘講的好太多。具體內容參考Course Note 7筆記。Lecture 7 鏈接

2020-06-29 16:52:55

cs231n'18：Lecture 1 | Introduction to Convolutional Neural Networks for Visual Recognition

一如既往，第一節課都是侃侃大山，沒什麼好說的。Lecture 1 鏈接

2020-06-29 16:52:55

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章