- 對於多分類的標籤(即教師信號),從本質上看,通過One-hot操作,就是把具體的標籤(Label)空間,變換到一個概率測度空間(設爲 p),如[1,0,0](表示它是第一個品類)。可以這樣理解這個概率,如果標籤分類的標量輸出爲1(即概率爲100%),其它值爲0(即概率爲0%)。
- 而對於多分類問題,在Softmax函數的“加工”下,它的實際輸出值就是一個概率向量,如[0.96, 0.04, 0],設其概率分佈爲q。
現在我們想衡量p和q之間的差異(即損失),一種簡單粗暴的方式,自然是可以比較p和q的差值,如MSE(不過效果不好而已)。但一種更好的方式是衡量這二者的概率分佈的差異,就是交叉熵,它的設計初衷就是要衡量兩個概率分佈之間的差異。
- 爲什麼要用softmax一下呢?exp函數是單調遞增的,它能很好地模擬max的行爲,而且它能讓“大者更大”。其背後的潛臺詞則是讓“小者更小”,這個有點類似“馬太效應”,強者愈強、弱者愈弱。這個特性,對於分類來說尤爲重要,它能讓學習效率更高。
這樣一來,分類標籤可以看做是概率分佈(由one-hot變換而來),神經網絡輸出也是一個概率分佈,現在想衡量二者的差異(即損失),自然用交叉熵最好了。
本文摘自AI羣