經典損失函數:交叉熵(附tensorflow)
一.什麼是交叉熵
交叉熵是一個信息論中的概念,它原來是用來估算平均編碼長度的。給定兩個概率分佈p和q,通過q來表示p的交叉熵爲:
新的改變
注意,交叉熵刻畫的是兩個概率分佈之間的距離,或可以說它刻畫的是通過概率分佈q來表達概率分佈p的困難程度,p代表正確答案,q代表的是預測值,交叉熵越小,兩個概率的分佈約接近。
那麼,在神經網絡中怎樣把前向傳播得到的結果也變成概率分佈呢?Softmax迴歸就是一個非常有用的方法。(所以面試官會經常問你,爲什麼交叉熵經常要個softmax一起使用?)
假設原始的神經網絡的輸出爲,那麼經過Softmax迴歸處理之後的輸出爲: