【機器學習】——爲什麼softmax搭配cross entropy是解決分類問題的通用方案？

衆所周知，softmax+cross entropy是在線性模型、神經網絡等模型中解決分類問題的通用方案，但是爲什麼選擇這種方案呢？它相對於其他方案有什麼優勢？筆者一直也困惑不解，最近瀏覽了一些資料，有一些小小心得，希望大家指正~

損失函數：交叉熵Cross Entropy

我們可以從三個角度來理解cross entropy的物理意義

從實例上直觀理解

我們首先來看Cross Entropy 的公式：
假設存在兩個分佈 $p$ 和 $q$ ， $p$ 爲樣本的真實分佈， $q$ 爲模型預測出的樣本分佈，則在給定的樣本集 $X$ 上，交叉熵的計算方式爲
$L_{CE}(p,q)=-\sum _{x\in X}p(x)logq(x)$
通常情況下在線性模型、神經網絡等模型中，關於樣本的真實分佈可以用one-hot的編碼來表示，比如男、女分別可以用[0,1]和[1,0]來表示，同樣的，C種類別的樣本可以用長度爲C的向量來表示，且一個樣本的表示向量中有且僅有一個維度爲1，其餘爲0。那會造成什麼後果呢？我們來看一個例子，假設一個樣本的真實label爲 $[0,0,0,1,0]$ ，預測的分佈爲 $[0.02,0.02,0.02,0.9,0.04]$ ，則交叉熵爲：
$L_{CE}=-1*log0.9$
如果預測分佈爲 $[0.1,0.5,0.2,0.1,0.2]$ ,則交叉熵爲：
$L_{CE}=-1*log0.1$
可以看出其實 $L_{CE}$ 只與label中1所對應下標的預測值有關，且該預測值越大， $L_{CE}$ 越小。
只要label中1所對應下標的預測值越接近1，則損失函數越小，這在直觀上就是符合我們對於損失函數的預期。
，

交叉熵爲什麼比均方誤差好

作爲迴歸問題的常見損失函數，均方誤差公式爲 $loss_{MSE}(y,t)=\frac{1}{2}\sum_{i=1}^{n}(y_i - t_i)^2$ ，好像也可以用來計算分類問題的損失函數，那它爲什麼不適合分類問題呢？我們再來看一個例子假設一個樣本的真實label爲 $[0,0,0,1,0]$ ，預測的分佈爲 $D_1 =[0.1,0.1,0.1,0.6,0.1]$ ,預測分佈 $D_2 =[0,0,0,0.6,0.4]$ ,此時 $loss_{MSE}D_1 < loss_{MSE}D_2$ ,也就是說對於 $loss_{MSE}$ 而言，即使與label中1所對應下標的預測值是正確的，其他項預測值的分佈也會影響損失的大小，這不符合我們對於分類問題損失函數的預期。

似然估計的視角

我們知道，對於一個多分類問題，給定樣本 $x$ ,它的似然函數可以表示爲
$p(t|x)=\prod_{i=1}^{C}P(t_i|x)^{t_i}=\prod_{i=1}^{C}y_i^{t_i}$
其中 $y_i$ 是模型預測的概率， $t_i$ 是對應類的label，那麼其對數似然估計則爲：
$-\sum_{i=1}^{C}t_ilog{y_i}$ , $t_i$ 對應於 $p(x)$ ， $y_i$ 對應於 $q(x)$ ，其實交叉熵就是對應於該樣本的負對數似然估計。

KL散度視角

KL散度又被稱爲相對熵，可以用來衡量兩個分佈之間的距離，想了解KL散度可以參考如何理解K-L散度（相對熵）。需要了解的是：KL散度越小，兩個分佈越相近。這麼看KL散度是不是很符合我們對於兩個分佈損失函數的定義呢?
，公式爲：
$D_{KL}=-\sum _{x\in X}p(x)log\frac{p(x)}{q(x)}\\ =-\sum _{x\in X}p(x)logp(x) - \sum _{x\in X}p(x)logq(x)\\ =-H(p)-\sum _{x\in X}p(x)logq(x)$
其中 $H(p)$ 爲p的熵，注意這裏的 $p$ 是樣本的真實分佈，所以 $H(p)$ 爲常數，因此，KL散度與交叉熵事實上是等價的，所以交叉熵也可以用來衡量兩個分佈之間的距離，符合我們對於損失函數的期待。

softmax+cross entropy到底學到了什麼？

我們知道在迴歸問題中的最常用的損失函數是均方誤差 $loss_{MSE}(y,t)=\frac{1}{2}\sum_{i=1}^{n}(y_i - t_i)^2$ ，那麼在反向傳播時, $\frac{\partial{loss}}{\partial{y_i}}=y_i-t_i$ ,即均方誤差在反向傳播時傳遞的是預測值與label值的偏差，這顯然是一個符合我們預期的、非常直覺的結果。
假定分類問題的最後一個隱藏層和輸出層如下圖所示

$a_1........a_c$ 爲最後一個隱藏層的C個類別, $y_1.....y_c$ 爲輸出層，則有 $\frac{\partial{Loss_{CE}}}{\partial{a_i}}=y_i-t_i$ ，因此softmax+cross entropy在反向傳播時傳遞的同樣是預測值與label值的偏差，即 $y_i-t_i$ ，如果對於證明不感興趣的，那麼這篇文章就可以到此結束了~以下均爲證明過程。
圖中 $y_i=\frac{e^{a_i}}{\sum_{j=1}^Ce^{a_j}}$ ，我們用 $\sum$ 表示分母 $\sum_{j=1}^Ce^{a_j}$ ，則 $y_i=\frac{e^{a_i}}{\sum}$ 。
$\frac{\partial{L_{CE}}}{\partial{a_i}}=\sum_{j=1}^{C}\frac{\partial{L_{CE}}}{\partial{y_j}}\frac{\partial{y_j}}{\partial{a_i}}=\sum_{i=1}^{C}(\frac{t_i}{y_j})\frac{\partial{y_j}}{\partial{a_i}}$ 注意這裏的 $y_i=\frac{e^{a_i}}{\sum_{j=1}^Ce^{a_j}}$ 與所有的 $a_i$ 都相關，因此需要用鏈式法則求導。
下面求 $\frac{\partial{y_j}}{\partial{a_i}}$ ,
$\frac{\partial{y_j}}{\partial{a_i}}$ 的求導分爲兩種情況
當 $i$ != $j$ 時, $\frac{\partial{y_j}}{\partial{a_i}}=\frac{\partial{\frac{e^{a_j}}{\sum} }}{\partial{a_i}}=-\frac{e^{a_j}}{\sum} \frac{e^{a_i}}{\sum}=-y_iy_j$
當 $i=j$ 時， $\frac{\partial{y_j}}{\partial{a_i}}=\frac{\partial{\frac{e^{a_i}}{\sum} }}{\partial{a_i}}=\frac{e^{a_i}\sum-e^{a_i}e^{a_j}}{{\sum}^2}=\frac{e^{a_i}}{\sum} *\frac{\sum-e^{a_j}}{\sum}=y_i(1-y_j)$
代入上式得
$\frac{\partial{L_{CE}}}{\partial{a_i}}= \sum_{i=1}^{C}(\frac{t_i}{y_j})\frac{\partial{y_j}}{\partial{a_i}}= -\frac{t_i}{y_i}\frac{\partial{y_i}}{\partial{a_i}}-\sum_{i = j}^{C}\frac{\partial{y_i}}{\partial{a_i}}=-\frac{t_i}{y_i}y_i(1-y_j)-\sum_{i!=j}^{C}\frac{t_i}{y_i}(-y_iy_j) =-t_i+y_i\sum_{j=1}^Ct_j=y_i-t_i$ 注意這裏 $\sum_{j=1}^Ct_j$ 爲所有label的和，應該等於1.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【機器學習】——爲什麼softmax搭配cross entropy是解決分類問題的通用方案？

損失函數：交叉熵Cross Entropy

從實例上直觀理解

交叉熵爲什麼比均方誤差好

似然估計的視角

KL散度視角

softmax+cross entropy到底學到了什麼？

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Dokcer部署Kafka集羣

【Linux命令學習】lsof查看打開的文件

POJ 1338 & UVA 136

POJ 1005 & ZOJ 1049 & UVA 2363

ZOJ 2739 & UVA 3399

ubuntu 16.04 安裝 xgboost python運行環境

統計學習方法筆記，第一章，統計學系方法概論

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結