動手學(4)

批量歸一化(BatchNormalization)

對輸入的標準化(淺層模型)
處理後的任意一個特徵在數據集中所有樣本上的均值爲0、標準差爲1。
標準化處理輸入數據使各個特徵的分佈相近

批量歸一化(深度模型)
利用小批量上的均值和標準差,不斷調整神經網絡中間輸出,從而使整個神經網絡在各層的中間輸出的數值更穩定。
1.對全連接層做批量歸一化
位置:全連接層中的仿射變換和激活函數之間。
在這裏插入圖片描述
2.對卷積層做批量歸⼀化
位置:卷積計算之後、應⽤激活函數之前。
如果卷積計算輸出多個通道,我們需要對這些通道的輸出分別做批量歸一化,且每個通道都擁有獨立的拉伸和偏移參數。 計算:對單通道,batchsize=m,卷積計算輸出=pxq 對該通道中m×p×q個元素同時做批量歸一化,使用相同的均值和方差。

3.預測時的批量歸⼀化
訓練:以batch爲單位,對每個batch計算均值和方差。
預測:用移動平均估算整個訓練數據集的樣本均值和方差。

nn.BatchNorm2d()表示卷積層的BN,參數爲通道數。nn.BatchNorm1d()表示全連接層的BN,參數爲輸出神經元個數。

拉伸參數和轉換參數爲可學習參數。
卷積層的BN放在卷積計算之後,激活函數之前。
預測時用移動平均預期整個訓練數據集的樣本均值和方差。
BN層能使整個神經網絡在各層的中間輸出的數值更穩定。

稠密連接網絡過渡層中,1 * 1卷積層的主要作用是間接通道數

梯度下降是漸變的反方向移動自變量從而偏移函數值的。
局部極小值是漸變下降算法面臨的一個挑戰。

牛頓法比例梯度下降的一個優勢在於:梯度下降“步幅”的確定比較困難,而牛頓法相當於可以通過Hessian矩陣來調整“步幅”。
牛頓法需要計算Hessian矩陣的逆,計算量比較大。
等級梯度下降法,牛頓法不可以避免局部極小值的問題。
在牛頓法中,局部極小值也可以通過調整學習率來解決。

關於動態學習率的說法,錯誤是(4)。

  1. 在最開始學習率設計比較大,加速收斂
  2. 學習率可以設計爲指數衰減或多重式衰減
  3. 在優化進行的後可以適當過渡學習率來避免振盪
  4. 動態學習率可以通過迭代次數增加而增加學習率(應該通過轉換次數增加重組學習率。)

關於特徵抽取部分,以下陳述中正確的是:(3)

  1. 通過拾取靠近輸出的層來抽取樣式特徵(選取靠近輸入的層來抽取樣式特徵)
  2. 我們通過訓練網絡模型來收回更好的特徵(我們不改變網絡模型參數,只對合成圖像的內容進行訓練更新)
  3. 我們通過逐層計算來抽取輸入圖像的特徵
  4. 用VGG網絡各個卷積塊的最後一層作爲樣式層(我們使用VGG網絡各個卷積塊的第一層作爲樣式層)

關於損失函數,下列陳述中錯誤的是:(2)

  1. 用Gram矩陣垂直各個通道上的樣式特徵的相關性
  2. 用樣式圖像與合成圖像在樣式層輸出的平方誤差上下樣式損失(我們需要先求得Gram矩陣,用兩個Gram矩陣的平方誤差尺寸樣式損失)
  3. 計算得的Gram矩陣尺寸與原圖像高寬無關(Gram矩陣尺寸僅與通道數有關,所以與原圖像的高和寬無關)
  4. 約會總變差損失減少噪聲點
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章