爲什麼交叉熵損失可以提高具有sigmoid和softmax輸出的模型的性能，而使用均方誤差損失則會存在很多問題

原創

2020-02-21 03:05

一、均方誤差的權值更新過程（舉例說明）

代價函數經常用方差代價函數（即採用均方誤差MSE），比如對於一個神經元（單輸入單輸出，sigmoid函數）,定義其代價函數爲：

其中y是我們期望的輸出，a爲神經元的實際輸出【 a=σ(z), where z=wx+b 】。在訓練神經網絡過程中，我們通過梯度下降算法來更新w和b，因此需要計算代價函數對w和b的導數：

然後更新w、b：

因爲sigmoid函數的性質，導致σ′(z)在z取大部分值時會很小（如下圖標出來的兩端，幾近於平坦），這樣會使得w和b更新非常慢（因爲η * a * σ′(z)這一項接近於0）。

二、交叉熵代價函數（cross-entropy cost function）

爲了克服MSE的這個缺點，引入了交叉熵代價函數：

其中：y爲期望的輸出，a爲神經元實際輸出【a=σ(z), where z=∑Wj*Xj+b】。我們同樣看看它的導數：

可以看到，導數中沒有σ′(z)這一項，權重的更新是受σ(z)−y這一項影響，即受誤差的影響。所以當誤差大的時候，權重更新就快，當誤差小的時候，權重的更新就慢。這是一個很好的性質。

三、總結

當用sigmoid函數作爲神經元的激活函數時，最好使用交叉熵代價函數來替代方差代價函數，以避免訓練過程太慢。
不過，爲什麼是交叉熵函數？導數中不帶σ′(z)項的函數有無數種，怎麼就想到用交叉熵函數？這自然是有來頭的，更深入的討論就不寫了。
另外，交叉熵函數的形式是−[ylna+(1−y)ln(1−a)]，而不是 −[alny+(1−a)ln(1−y)]，爲什麼？因爲當期望輸出的y=0時，lny沒有意義；當期望y=1時，ln(1-y)沒有意義。而因爲a是sigmoid函數的實際輸出，永遠不會等於0或1，只會無限接近於0或者1，因此不存在這個問題。

發佈了69 篇原創文章 · 獲贊 133 · 訪問量 48萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.