Activation function
當用經典的 LeNet 進行 MNIST 識別訓練時,我發現將 sigmoid 函數改爲 ReLu,同時降低學習率(防止 dying neurons)並沒能加快 SGD 收斂,反而使得 accuracy 的提升變得非常緩慢。所以這樣看來,當 CNN 沒有深到極易發生 gradient vanishing 時,sigmoid 或者 tanh 依然是首選。
Kernel size
關注的 feature 比較細微時宜用小 kernel,反之 kernel 尺寸可以大一些。在這個實驗中,採用 5x5 的 kernel 效果要比 3x3 的要差。
Channel number
最讓我意外的就是 channel 數量對訓練結果的影響。我之前一直以爲提升 channel 數量可以獲得圖像中更多模式信息,從而提高模型效果。也就是覺得 channel 越多越好。但是這個實驗中我把每層的 channel 數都提高了一倍,accuracy 卻大幅降低。可見神經網絡設計還是要具體問題具體分析。。。