動手學（4）

動手學（4）

原創

2020-02-27 22:48

批量歸一化（BatchNormalization）

對輸入的標準化（淺層模型）
處理後的任意一個特徵在數據集中所有樣本上的均值爲0、標準差爲1。
標準化處理輸入數據使各個特徵的分佈相近

批量歸一化（深度模型）
利用小批量上的均值和標準差，不斷調整神經網絡中間輸出，從而使整個神經網絡在各層的中間輸出的數值更穩定。
1.對全連接層做批量歸一化
位置：全連接層中的仿射變換和激活函數之間。

2.對卷積層做批量歸⼀化
位置：卷積計算之後、應⽤激活函數之前。
如果卷積計算輸出多個通道，我們需要對這些通道的輸出分別做批量歸一化，且每個通道都擁有獨立的拉伸和偏移參數。計算：對單通道，batchsize=m,卷積計算輸出=pxq 對該通道中m×p×q個元素同時做批量歸一化,使用相同的均值和方差。

3.預測時的批量歸⼀化
訓練：以batch爲單位,對每個batch計算均值和方差。
預測：用移動平均估算整個訓練數據集的樣本均值和方差。

nn.BatchNorm2d()表示卷積層的BN，參數爲通道數。nn.BatchNorm1d()表示全連接層的BN，參數爲輸出神經元個數。

拉伸參數和轉換參數爲可學習參數。
卷積層的BN放在卷積計算之後，激活函數之前。
預測時用移動平均預期整個訓練數據集的樣本均值和方差。
BN層能使整個神經網絡在各層的中間輸出的數值更穩定。

稠密連接網絡過渡層中，1 * 1卷積層的主要作用是間接通道數

梯度下降是漸變的反方向移動自變量從而偏移函數值的。
局部極小值是漸變下降算法面臨的一個挑戰。

牛頓法比例梯度下降的一個優勢在於：梯度下降“步幅”的確定比較困難，而牛頓法相當於可以通過Hessian矩陣來調整“步幅”。
牛頓法需要計算Hessian矩陣的逆，計算量比較大。
等級梯度下降法，牛頓法不可以避免局部極小值的問題。
在牛頓法中，局部極小值也可以通過調整學習率來解決。

關於動態學習率的說法，錯誤是（4）。

在最開始學習率設計比較大，加速收斂

學習率可以設計爲指數衰減或多重式衰減

在優化進行的後可以適當過渡學習率來避免振盪

動態學習率可以通過迭代次數增加而增加學習率（應該通過轉換次數增加重組學習率。）

關於特徵抽取部分，以下陳述中正確的是：（3）

通過拾取靠近輸出的層來抽取樣式特徵（選取靠近輸入的層來抽取樣式特徵）

我們通過訓練網絡模型來收回更好的特徵（我們不改變網絡模型參數，只對合成圖像的內容進行訓練更新）

我們通過逐層計算來抽取輸入圖像的特徵

用VGG網絡各個卷積塊的最後一層作爲樣式層（我們使用VGG網絡各個卷積塊的第一層作爲樣式層）

關於損失函數，下列陳述中錯誤的是：（2）

用Gram矩陣垂直各個通道上的樣式特徵的相關性

用樣式圖像與合成圖像在樣式層輸出的平方誤差上下樣式損失（我們需要先求得Gram矩陣，用兩個Gram矩陣的平方誤差尺寸樣式損失）

計算得的Gram矩陣尺寸與原圖像高寬無關（Gram矩陣尺寸僅與通道數有關，所以與原圖像的高和寬無關）

約會總變差損失減少噪聲點

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

批量歸一化（BatchNormalization）

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

mysql學習筆記(4)

mysql學習筆記(2)

動手學（4）

動手學（2）

動手深度學習（1）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結