一、softmax運算

分類問題需要得到離散的預測輸出，一個簡單的辦法是將輸出值 $o_i$ 當做預測類別是i的置信度，並將值最大的輸出所對應的類作爲預測輸出，即輸出 $argmax_io_i$ 。例如，如果 $o_1,o_2,o_3$ 分別爲0.1，10，0.1，由於 $o_2$ 最大，那麼預測類別爲2。

然而，直接使用輸出層的輸出有兩個問題。一方面，由於輸出層的輸出值的範圍不確定，難以直觀判斷這些值的意義。例如，上面舉的例子中的輸出值10表示很置信圖像類別爲貓，因爲該輸出值是其它兩類的輸出值的100倍。但是如果 $o_1=o_3=10^3$ ，那麼輸出值10又表示圖像類別爲貓的概率很低。另一方面，由於真實標籤是離散值，這些離散值與不確定範圍的輸出值之間的誤差難以衡量。

softmax運算解決了以上兩個問題，它通過下面公式將輸出值變換成值爲正且和爲1的概率分佈： $\hat{y_1},\hat{y_2},\hat{y_3}=softmax(o_1,o_2,o_3)$ 其中 $\hat{y_1}=\frac{exp(o_1)}{\sum_{i=1}^3exp(o_i)},\hat{y_2}=\frac{exp(o_2)}{\sum_{i=1}^3exp(o_i)},\hat{y_3}=\frac{exp(o_3)}{\sum_{i=1}^3exp(o_i)}$ 容易看出 $\hat{y_1}+\hat{y_2}+\hat{y_3}=1$ 且 $0\leq\hat{y_1},\hat{y_2},\hat{y_3}\leq1$ ，因此 $\hat{y_1},\hat{y_2},\hat{y_3}$ 是一個合法的概率分佈。此外， $argmax_io_i=argmax_i\hat{y_i}$ 因此softmax不改變預測類別輸出。

二、交叉熵損失函數

使用softmax運算可以更方便地與離散標籤計算誤差，softmax運算將輸出變換成一個合法的類別預測分佈。實際上，真實標籤也可以用類別分佈表達：對於樣本i，我們構造向量 $y^{(i)}\in \mathbb{R}^q$ ，使其第 $y^{(i)}$ （樣本i類別的離散數值）個元素爲1，其餘爲0。這樣訓練目標可以設爲使預測概率分佈 $\hat{y}^{(i)}$ 儘可能接近真實的標籤概率分佈 $y^{(i)}$ 。

我們可以像線性迴歸那樣使用平方損失函數 $||\hat{y}^{(i)}-y^{(i)}||^2/2$ 。然而，想要預測分類結果正確，其實並不需要預測概率完全等於標籤概率。例如在圖像分類中，如果 $y^{(i)}=3$ ，那麼只需要 $\hat{y}_3^{(i)}$ 比其它兩個預測值 $\hat{y}_1^{(i)}$ 和 $\hat{y}_2^{(i)}$ 大就可以了。即使 $\hat{y}_3^{(i)}$ 的值爲0.6，不管其它兩個預測值是多少，類別預測均正確。而平方損失則過於嚴格，例如 $\hat{y}_1^{(i)}=\hat{y}_2^{(i)}=0.2$ 比 $\hat{y}_1^{(i)}=0,\hat{y}_2^{(i)}=0.4$ 的損失要小得多，雖然兩者都有同樣正確的分類預測結果。

改善上述問題的一個方法是使用更適合衡量兩個概率分佈差異的測量函數。其中，交叉熵是一個常用的測量方法： $H(y^{(i)},\hat{y}^{(i)})=-\sum_{j=1}^qy_j^{(i)}log\hat{y}_j^{(i)}$ 其中帶下標的 $y_j^{(i)}$ 是向量 $y^{(i)}$ 中非0即1的元素，需要注意將它與樣本i類別的離散數值，即不帶下標的 $y^{(i)}$ 區分。在上式中，我們知道向量 $y^{(i)}$ 中只有第 $y^{(i)}$ 個元素 $y^{(i)}_{y^{(i)}}$ 爲1，其餘全爲0。於是 $H(y^{(i)},\hat{y}^{(i)})=-log\hat{y}_{y^{(i)}}^{(i)}$ 。也就是所，交叉熵只關心對正確類別的預測概率，因爲只要其值足夠大，就可以確保分類結果正確。當然，遇到一個樣本有多個標籤時，例如圖片裏含有不止一個物體時，並不能做這一步簡化。但即使對於這種情況，交叉熵同樣只關心對圖像中出現的物體類別的預測概率。

假設訓練數據集的樣本數爲n，交叉熵損失函數定義爲 $\iota (\theta)=\frac{1}{n}\sum_{i=1}^nH(y^{(i)},\hat{y}^{(i)})$ 其中 $\theta$ 代表模型參數。同樣地，如果每個樣本只有一個標籤，那麼交叉熵損失函數可以簡寫成 $\iota (\theta)=-\frac{1}{n}\sum_{i=1}^nlog\hat{y}_{y^{(i)}}^{(i)}$ 。從另一個角度看，我們知道最小化 $\iota(\theta)$ 等價於最大化 $exp(-n\iota(\theta))=\prod_{i=1}^n\hat{y}^{(i)}_{y^{(i)}}$ ，即最小化交叉熵損失函數等價於最大化訓練數據集所有標籤類別的聯合預測概率。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

softmax運算

一、softmax運算

二、交叉熵損失函數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

循環神經網絡——裁剪梯度（應對梯度爆炸）

自然語言處理——語言模型

np.c_和np.r_的用法解析

自然語言處理 —— 困惑度

集成學習

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結