訓練分類器爲什麼要用cross entropy loss而不能用mean square error loss?

  • 對於多分類的標籤(即教師信號),從本質上看,通過One-hot操作,就是把具體的標籤(Label)空間,變換到一個概率測度空間(設爲 p),如[1,0,0](表示它是第一個品類)。可以這樣理解這個概率,如果標籤分類的標量輸出爲1(即概率爲100%),其它值爲0(即概率爲0%)。
  • 而對於多分類問題,在Softmax函數的“加工”下,它的實際輸出值就是一個概率向量,如[0.96, 0.04, 0],設其概率分佈爲q。
    現在我們想衡量p和q之間的差異(即損失),一種簡單粗暴的方式,自然是可以比較p和q的差值,如MSE(不過效果不好而已)。但一種更好的方式是衡量這二者的概率分佈的差異,就是交叉熵,它的設計初衷就是要衡量兩個概率分佈之間的差異。

這裏寫圖片描述

  • 爲什麼要用softmax一下呢?exp函數是單調遞增的,它能很好地模擬max的行爲,而且它能讓“大者更大”。其背後的潛臺詞則是讓“小者更小”,這個有點類似“馬太效應”,強者愈強、弱者愈弱。這個特性,對於分類來說尤爲重要,它能讓學習效率更高。
    這樣一來,分類標籤可以看做是概率分佈(由one-hot變換而來),神經網絡輸出也是一個概率分佈,現在想衡量二者的差異(即損失),自然用交叉熵最好了。

本文摘自AI羣

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章