淺 CNN 中激活函數選擇、 kernel大小以及channel數量

Activation function

當用經典的 LeNet 進行 MNIST 識別訓練時,我發現將 sigmoid 函數改爲 ReLu,同時降低學習率(防止 dying neurons)並沒能加快 SGD 收斂,反而使得 accuracy 的提升變得非常緩慢。所以這樣看來,當 CNN 沒有深到極易發生 gradient vanishing 時,sigmoid 或者 tanh 依然是首選。

Kernel size

關注的 feature 比較細微時宜用小 kernel,反之 kernel 尺寸可以大一些。在這個實驗中,採用 5x5 的 kernel 效果要比 3x3 的要差。

Channel number

最讓我意外的就是 channel 數量對訓練結果的影響。我之前一直以爲提升 channel 數量可以獲得圖像中更多模式信息,從而提高模型效果。也就是覺得 channel 越多越好。但是這個實驗中我把每層的 channel 數都提高了一倍,accuracy 卻大幅降低。可見神經網絡設計還是要具體問題具體分析。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章