深度學習小筆記04-魏秀參《解析深度學習-卷積神經網絡原理與視覺實踐》

這本書講的很好,難得的高質量的精華內容,相比其他蹭熱度的書靠譜紮實的多。
我這裏記錄一下閱讀過程中對我來說有用的內容,摘抄自原書,因此標記爲轉載:

  • 9.4小結:

p111在分類問題的目標函數中,交叉熵損失函數是最爲常用的分類目標函數,且效果一般優於合頁損失函數;大間隔損失函數和中心損失函數的出發點在於增大類間距離、減小類內距離,如此一來不僅要求分類明確,而且還有助於提高特徵的分辨能力;坡道損失函數是分類問題目標函數中的一類非凸損失函數,由於其良好的抗噪特性,推薦將其用於樣本噪聲或離羣點較多的分類任務中。
// 我爲什麼覺得這句重要呢?因爲在很多情況下,groundtruth並不一定是準確地,或者其本身含有很多噪聲,這在實際是很常見的情況。所有的網絡評估標準都是以GT爲依據,但是實際GT卻有可能不是真實值,這時候坡道損失函數的特性就重要多了。

p112在迴歸問題的目標函數中,L1和L2是兩個直觀且常用的迴歸任務目標函數,在實際使用中L2損失函數略優於L1,Tukey’s biweight損失函數爲迴歸問題中的一類非凸損失函數,同樣具有良好的抗噪能力。在一些如人臉年齡估計、頭部角度識別等任務標記具有不確定性的特殊應用場景下,基於標記分佈的損失函數不失爲一種優質的選擇。

  • 11.2.5微調神經網絡

微調預訓練模型就是用目標任務數據在原先預訓練模型上繼續進行訓練過程。
1. 由於網絡已經在原始數據上收斂,因此應設置較小的學習率在目標數據上微調,如10^-4或以下、
2. 卷積神經網絡淺層擁有更泛化的特徵,深層特徵更加抽象,對應高層語義,因此,新數據上高層語義更新的可能性較大,可以根據層深設置不同學習率,深層大於淺層
3. 從後往前微調網絡,數據越多,可調整越多層(建議)
4. 當目標數據極少同時和原始數據有較大差異時候,目前一種有效的方式是藉助部分原始數據與目標數據協同訓練。

  • 11.3

批規範化操作可以一定程度上緩解深層網絡訓練時的“梯度彌散”效應,一般將批規範化操作設置於網絡的非線性映射函數之前,批規範化操作可有效提高模型收斂率。(我在別的地方也有說放在後面會好一點,這個嘛。。等用的時候可以都試試)

對於模型優化算法選擇,隨機梯度下降是目前使用最多的網絡訓練方法(這本書的出版時間:2018年11月1版,爲什麼要寫明時間,因爲這裏用的時間是:目前,所以我要寫出來時間),通常訓練時間較長,但在理想的網絡參數初始化和學習率設置方案下,隨機梯度下降法得到的網絡更穩定,結果更可靠。若希望網絡收斂更快且需要訓練較複雜結構的網絡時,推薦使用其他一堆優化算法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章