ziL=∑kwkiLakL−1+bkiL=第L層第i個神經元的值=第L−1層所有神經元的加權輸出yjL=softmax(zjL)=∑ieziLezjL=第L層所有神經元指數化求和第L層第j神經元的指數化
⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧if j=i, ∂zi∂yj=∂zi∂(∑kezkezjL)=(∑kezk)2(ezjL)′⋅∑kezkL−ezj⋅ezi=∑kezkezjL−(∑kezkezjL)2=yj(1−yj)if j=i, ∂zi∂yj=∂zi∂(∑kezkezjL)=(∑kezk)2∂ezjL/∂zi⋅∑kezkL−ezj⋅ezi=(∑kezk)20⋅∑kezkL−ezj⋅ezi=−yjyi
最終softmax函數的在yj對zi上的反響傳播這條線上的導數分別爲:
∂zi∂yj={yj(1−yj)−yjyij=ij=i
【注意】
所有這裏區別就在於 當j=i時,分子有一個導數直接爲0。
Reference
交叉熵代價函數(作用及公式推導)