深度學習學習記錄

原創

2018-09-30 09:33

1，大體流程：

（1）大家發現有可能深層次的網絡更優，但是深層網絡難以訓練，故無法實現

（2）有人提出提前用無監督學習方式預訓練，再用有監督訓練。如RGB、auto-encoder等實現並驗證此想法。

（3）le-net提出用relu做activation可以直接就訓練，不需要再預訓練，獲得成功

（4）google-net和VGG提出了le-net的擴展板，主要是進一步加深了網絡的深度，獲得成功

（5）residual-net進一步用residual結構來構造神經網絡，並且他發現之前的VGG或google-net這種plain-net層數再往上加反而沒有之前效果好，而這個效果不是與之前說的網絡越深越好矛盾嗎？因此由於某種原因導致更深的網絡不好，他用residual結構解決了此問題。

2，存在疑問

（1）爲什麼除了relu以外用其他核來訓練網絡無法得到目標網絡？

答：論文中說是由於梯度消失。但是各種解釋都說的是probibally，所以沒什麼意義。反正除了relu其他activation就是不合適，我覺得主要原因還是稀疏性，relu可以構成稀疏且dense向量，而其他則僅僅是dense向量。

糾結這個問題暫時沒啥意義，這個問題需要理論上的突破才能完全從本質上解釋。

（2）爲什麼residual可以更好的訓練更深層次網絡？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.