我覺得下面的文章講得不錯,通過穿衣服和天氣例子的引入,一步步講述編碼長度等理論,引入交叉熵是爲了表徵預測結果與真實結果的差異
最重要的公式:
以及
原文鏈接(注:英文版):
http://neuralnetworksanddeeplearning.com/chap3.html#softmax
我覺得下面的文章講得不錯,通過穿衣服和天氣例子的引入,一步步講述編碼長度等理論,引入交叉熵是爲了表徵預測結果與真實結果的差異
最重要的公式:
Hp(q)=x∑q(x)log2(p(x)1)
以及
Dq(p)=Hq(p)−H(p)
原文鏈接(注:英文版):
http://neuralnetworksanddeeplearning.com/chap3.html#softmax