深度學習學習記錄

1,大體流程:

(1)大家發現有可能深層次的網絡更優,但是深層網絡難以訓練,故無法實現

(2)有人提出提前用無監督學習方式預訓練,再用有監督訓練。如RGB、auto-encoder等實現並驗證此想法。

(3)le-net提出用relu做activation可以直接就訓練,不需要再預訓練,獲得成功

(4)google-net和VGG提出了le-net的擴展板,主要是進一步加深了網絡的深度,獲得成功

(5)residual-net進一步用residual結構來構造神經網絡,並且他發現之前的VGG或google-net這種plain-net層數再往上加反而沒有之前效果好,而這個效果不是與之前說的網絡越深越好矛盾嗎?因此由於某種原因導致更深的網絡不好,他用residual結構解決了此問題。

 

2,存在疑問

(1)爲什麼除了relu以外用其他核來訓練網絡無法得到目標網絡?

答:論文中說是由於梯度消失。但是各種解釋都說的是probibally,所以沒什麼意義。反正除了relu其他activation就是不合適,我覺得主要原因還是稀疏性,relu可以構成稀疏且dense向量,而其他則僅僅是dense向量。

糾結這個問題暫時沒啥意義,這個問題需要理論上的突破才能完全從本質上解釋。

 

(2)爲什麼residual可以更好的訓練更深層次網絡?

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章