9.目標函數(損失函數,代價函數)
9.1分類任務的目標函數
9.1.1 交叉熵損失函數(cross entropy)(SoftMax)
Lcross entropy loss=Lsoftmax_loss=−1N∑i=1Nlogehyi∑Cj=1ehj
通過指數化變換使網絡輸出 h 轉換爲概率形式
9.1.2 合頁損失函數(hinge loss)
Lhinge loss=1N∑i=1Nmax{0,1−hyi}
一般分類任務,交叉熵比hinge更好
9.1.3 坡道損失函數(ramp loss function)
針對噪聲數據和離羣點具備良好的抗噪特性
在分類(迴歸)誤差較大區域進行了“截斷”
Lramp loss=Lhinge loss−1N∑i=1Nmax{0,s−hyi}=1N∑i=1N(max{0,1−hyi}−max{0,s−hyi})
s 指定了“截斷點”的位置
s 取值最好根據分類任務的類別數 C 而定,一般設置爲 s = -1/(C-1)
也被稱爲截斷合頁函數
以上提到的交叉熵損失函數、合頁損失函數和坡道損失函數只是簡單衡量
模型預測值與樣本真實標記之間的誤差從而指導訓練過程,它們並沒有顯式地
將特徵判別性學習考慮到整個網絡訓練中。
9.1.4 大間隔交叉熵損失函數
傳統的softmax中將輸出結果h表示爲全連接層參數W與該層特徵向量xi 的內積
可變換爲
Lsoftmax loss=−1N∑i=1Nloge||Wi||||xi||cos(θyi)∑Cj=1e||Wj||||xi||cos(θj)
將第i類分類間隔拉大,由cos(θyi) 變爲ϕ(θyi)
得到大間隔交叉熵損失函數
Llarge_margin softmax loss=−1N∑i=1Nloge||Wi||||xi||ϕ(θyi)e||Wi||||xi||ϕ(θyi)+∑j≠yie||Wj||||xi||cos(θj)
其中,
ϕ(θ)=⎧⎩⎨⎪⎪cos(mθ),D(θ),0≤θ≤πmπm<θ≤π
式中,
D(θ) 滿足單調遞減,且
D(πm=cosπm) ,
9.1.5 中心損失函數
Lcenter loss=12∑i=1N||xi−cyi||22
其中,
cyi 爲第
yi 類所有深度特徵的均值(‘中心’)
主要考慮控制類內差異,與考慮類間距離的損失函數配合(交叉熵損失函數)
最終目標函數表示爲
Lfinal=Lcross entropy loss+Lcenter loss(h,yi)=−1N∑i=1Nlogehyi∑Cj=1ehj+λ2∑i=1N||xi−cyi||22
式中λ 爲兩個損失函數的調節項,λ 越大,類內差異比重越大
9.2 迴歸任務的損失函數
基本概念:殘差
9.2.1 l1 損失函數
對N個樣本:
Ll1 loss=1N∑i=1N∑t=1M|lit|
9.2.2 l2 損失函數
對N個樣本
Ll1 loss=1N∑i=1N∑t=1M(lit)2
兩個損失函數在迴歸精度上相差無幾,某些情況,
l2 可能略優,速度也更快
9.2.3 Tukey’s biweight 損失函數(魯棒損失函數)
非凸損失函數
可以克服迴歸任務中的離羣點或樣本噪聲對整體迴歸模型的干擾影響
LTukey′s biweight loss=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪c26N∑i=1N∑t=1M[1−(1−(litc)2)3],c2M6,if|lit|≤cotherwise
常數c決定函數拐點
9.3 其他任務的目標函數
標記分佈問題 區別於分類問題的離散標記,也不同於迴歸問題的連續標記
語義分割
以一定程度緩解多標記任務中的類別不確信問題
利用softmax 將 輸出結果h轉換爲合法分佈
針對預測的標記向量(標記分佈)y^ ,使用KL散度衡量與真實標記向量y的誤差
LKL loss=∑kyklogyky^k
由於
yk 爲常量,等價於
LKL loss=−∑kyklogy^k
參考文獻:解析卷積神經網絡—深度學習實踐手冊引用塊內容