softmax與分類模型
模型功能
softmax使用於多分類模型,softmax對於每個分類標籤都會輸出一個概率,概率最大的那個作爲輸出結果。
引入
假設樣本有四個特徵x1,x2,x3,x4,有三種可能標籤y1,y2,y3
o1=x1w11+x2w21+x3w31+x4w41+b1
o2=x1w12+x2w22+x3w32+x4w42+b2
o3=x1w13+x2w23+x3w33+x4w43+b3
對於上層的式子,我們可以用如下的單層神經網絡圖來表示:
我們的目標就是求出iargmaxoi,例如o1,o2,o3分別爲0.1,10,0.1,那麼我們最後輸出的結果應該是2。
這個方法可以用在多分類問題中,但是存在兩個問題:
- 輸出值的意義不明,各個值之間大小差異可能也很大,人不易理解。
- 輸出值的輸出範圍不定,而原始標籤是一個個離散值,難以表示兩者之前的誤差。
softmax函數
爲了解決上面兩個問題,提出了softmax函數,softmax函數通過如下變化將輸出變化爲和爲1,值爲正的概率分佈:
y^1,y^2,y^3=softmax(o1,o2,o3)
y^1=∑i=13exp(oi)exp(o1),y^2=∑i=13exp(oi)exp(o2),y^3=∑i=13exp(oi)exp(o3).
容易看出y^1+y^2+y^3=1且0≤y^1,y^2,y^3≤1,因此y^1,y^2,y^3是一個合法的概率分佈。這時候,如果y^2=0.8,我們就知道圖像類別爲貓的概率是80%。此外,我們注意到
iargmaxoi=iargmaxy^i
所以softmax運算其實不改變預測類別輸出。
計算效率
- 單樣本矢量計算表達式
爲了提高計算效率,我們可以將單樣本分類通過矢量計算來表達。在上面的圖像分類問題中,假設softmax迴歸的權重和偏差參數分別爲
W=⎣⎢⎢⎡w11w21w31w41w12w22w32w42w13w23w33w43⎦⎥⎥⎤,b=[b1b2b3],
設高和寬分別爲2個像素的圖像樣本i的特徵爲
x(i)=[x1(i)x2(i)x3(i)x4(i)],
輸出層的輸出爲
o(i)=[o1(i)o2(i)o3(i)],
預測爲狗、貓或雞的概率分佈爲
y^(i)=[y^1(i)y^2(i)y^3(i)].
softmax迴歸對樣本i分類的矢量計算表達式爲
o(i)y^(i)=x(i)W+b,=softmax(o(i)).
- 小批量矢量計算表達式
爲了進一步提升計算效率,我們通常對小批量數據做矢量計算。廣義上講,給定一個小批量樣本,其批量大小爲n,輸入個數(特徵數)爲d,輸出個數(類別數)爲q。設批量特徵爲X∈Rn×d。假設softmax迴歸的權重和偏差參數分別爲W∈Rd×q和b∈R1×q。softmax迴歸的矢量計算表達式爲
OY^=XW+b,=softmax(O),
其中的加法運算使用了廣播機制,O,Y^∈Rn×q且這兩個矩陣的第i行分別爲樣本i的輸出o(i)和概率分佈y^(i)。
交叉熵損失函數
對於樣本i,我們構造向量y(i)∈Rq ,我們假設每個使其對應類別的向量元素爲1,其餘爲0。
這裏我們**假設是一個單標籤預測問題,並且標籤數量爲q,**我們假設向量y(i)的第h(i)個元素爲1,其餘爲0,h(i)∈[0,m−1]。
這樣我們的訓練目標可以設爲使預測概率分佈y^(i)儘可能接近真實的標籤概率分佈y(i)。
Loss=∣y^(i)−y(i)∣2/2
然而,想要預測分類結果正確,我們其實並不需要預測概率完全等於標籤概率。例如,在圖像分類的例子裏,如果y(i)=3,那麼我們只需要y^3(i)比其他兩個預測值y^1(i)和y^2(i)大就行了。即使y^3(i)值爲0.6,不管其他兩個預測值爲多少,類別預測均正確。而平方損失則過於嚴格,例如y^1(i)=y^2(i)=0.2比y^1(i)=0,y^2(i)=0.4的損失要小很多,雖然兩者都有同樣正確的分類預測結果。
改善上述問題的一個方法是使用更適合衡量兩個概率分佈差異的測量函數。其中,交叉熵(cross entropy)是一個常用的衡量方法:
H(y(i),y^(i))=−j=1∑qyj(i)logy^j(i),
其中帶下標的yj(i)表示向量y(i)的第j−1個元素(元素起指示作用,非0即1,1代表屬於對應類別)。
在上式中,我們知道向量y(i)中只有第h(i)個元素爲1,其餘全爲0,於是H(y(i),y^(i))=−logy^h(i)(i)。也就是說,交叉熵只關心對正確類別的預測概率,因爲只要其值足夠大,就可以確保分類結果正確。當然,遇到一個樣本有多個標籤時,例如圖像裏含有不止一個物體時,我們並不能做這一步簡化。但即便對於這種情況,交叉熵同樣只關心對圖像中出現的物體類別的預測概率。
Example
假設有三個樣本,且每個樣本的損失計算如下:
L1=−(0×log0.3+0×log0.3+1×log0.4)=0.91L2=−(0×log0.3+1×log0.4+0×log0.3)=0.91L3=−(1×log0.1+0×log0.2+0×log0.7)=2.30
假設訓練數據集的樣本數爲n,交叉熵損失函數定義爲
ℓ(Θ)=n1i=1∑nH(y(i),y^(i)),
對應到上面的例子,即
MSE=30.91+0.91+2.3=1.37
其中Θ代表模型參數。同樣地,如果每個樣本只有一個標籤(即單標籤預測問題),那麼交叉熵損失可以簡寫成ℓ(Θ)=−(1/n)∑i=1nlogy^h(i)(i)從另一個角度來看,我們知道最小化ℓ(Θ)等價於最大化exp(−nℓ(Θ))=∏i=1ny^h(i)(i),即最小化交叉熵損失函數等價於最大化訓練數據集所有標籤類別的聯合預測概率。