一、softmax運算
分類問題需要得到離散的預測輸出,一個簡單的辦法是將輸出值oi當做預測類別是i的置信度,並將值最大的輸出所對應的類作爲預測輸出,即輸出argmaxioi。例如,如果o1,o2,o3分別爲0.1,10,0.1,由於o2最大,那麼預測類別爲2。
然而,直接使用輸出層的輸出有兩個問題。一方面,由於輸出層的輸出值的範圍不確定,難以直觀判斷這些值的意義。例如,上面舉的例子中的輸出值10表示很置信圖像類別爲貓,因爲該輸出值是其它兩類的輸出值的100倍。但是如果o1=o3=103,那麼輸出值10又表示圖像類別爲貓的概率很低。另一方面,由於真實標籤是離散值,這些離散值與不確定範圍的輸出值之間的誤差難以衡量。
softmax運算解決了以上兩個問題,它通過下面公式將輸出值變換成值爲正且和爲1的概率分佈:y1^,y2^,y3^=softmax(o1,o2,o3)其中y1^=∑i=13exp(oi)exp(o1),y2^=∑i=13exp(oi)exp(o2),y3^=∑i=13exp(oi)exp(o3)容易看出y1^+y2^+y3^=1且0≤y1^,y2^,y3^≤1,因此y1^,y2^,y3^是一個合法的概率分佈。此外,argmaxioi=argmaxiyi^因此softmax不改變預測類別輸出。
二、交叉熵損失函數
使用softmax運算可以更方便地與離散標籤計算誤差,softmax運算將輸出變換成一個合法的類別預測分佈。實際上,真實標籤也可以用類別分佈表達:對於樣本i,我們構造向量y(i)∈Rq,使其第y(i)(樣本i類別的離散數值)個元素爲1,其餘爲0。這樣訓練目標可以設爲使預測概率分佈y^(i)儘可能接近真實的標籤概率分佈y(i)。
我們可以像線性迴歸那樣使用平方損失函數∣∣y^(i)−y(i)∣∣2/2。然而,想要預測分類結果正確,其實並不需要預測概率完全等於標籤概率。例如在圖像分類中,如果y(i)=3,那麼只需要y^3(i)比其它兩個預測值y^1(i)和y^2(i)大就可以了。即使y^3(i)的值爲0.6,不管其它兩個預測值是多少,類別預測均正確。而平方損失則過於嚴格,例如y^1(i)=y^2(i)=0.2比y^1(i)=0,y^2(i)=0.4的損失要小得多,雖然兩者都有同樣正確的分類預測結果。
改善上述問題的一個方法是使用更適合衡量兩個概率分佈差異的測量函數。其中,交叉熵是一個常用的測量方法:H(y(i),y^(i))=−j=1∑qyj(i)logy^j(i)其中帶下標的yj(i)是向量y(i)中非0即1的元素,需要注意將它與樣本i類別的離散數值,即不帶下標的y(i)區分。在上式中,我們知道向量y(i)中只有第y(i)個元素yy(i)(i)爲1,其餘全爲0。於是H(y(i),y^(i))=−logy^y(i)(i)。也就是所,交叉熵只關心對正確類別的預測概率,因爲只要其值足夠大,就可以確保分類結果正確。當然,遇到一個樣本有多個標籤時,例如圖片裏含有不止一個物體時,並不能做這一步簡化。但即使對於這種情況,交叉熵同樣只關心對圖像中出現的物體類別的預測概率。
假設訓練數據集的樣本數爲n,交叉熵損失函數定義爲ι(θ)=n1i=1∑nH(y(i),y^(i))其中θ代表模型參數。同樣地,如果每個樣本只有一個標籤,那麼交叉熵損失函數可以簡寫成ι(θ)=−n1∑i=1nlogy^y(i)(i)。從另一個角度看,我們知道最小化ι(θ)等價於最大化exp(−nι(θ))=∏i=1ny^y(i)(i),即最小化交叉熵損失函數等價於最大化訓練數據集所有標籤類別的聯合預測概率。