- 書:
- 基於深度學習的自然語言處理
- Neural Network Methods for Natural Language Processing
- 作者:Yoav Goldberg
- 出版社:機械工業出版社
- 章節:2.7 訓練和最優化
損失函數
注:主要是在自然語言處理中經常和線性模型以及神經網絡一起使用的損失函數。
1. hinge損失函數
二分類:間隔損失、SVM損失
- 損失函數:
Lhinge(binary)(y,y)=max(0,1−y⋅y)
分類規則爲:
prediction=y^=sign(y)
其中,y是正確的類別(1或-1),y是分類器的計算結果,y^是分類器的輸出。
- 目標:
多分類
- 損失函數:
Lhinge(multi−class)(y^,y)=max(0,1−(y^[t]−y^[k]))
分類規則爲選擇分數最高的類別:
prediction=argmaxi y^[i]
其中,y是正確類別的獨熱向量,y^是模型的輸出向量(y^=y^[1],y^[2],…,y^[n]),y^[t]爲正確類別t對應的分數,y^[k]最高分類別k的分數。
- 目標:
評價
- 可用於線性輸出
- 適用於當需要一個嚴格的決策規則,而不需要建模類別成員概率的情況
2. 對數(log)損失函數
- 損失函數:
Llog(y^,y)=log(1+exp(−(y^[t]−y^[k])
符號含義同多分類hinge。
評價
- 是hinge損失的常用變形
- 可以看作hinge損失的平緩版本,具有無限大的間隔
3. 交叉熵
二分類:二元交叉熵損失、logistic損失
- 損失函數:
Llogistic(y^,y)=−ylogy^−(1−y)log(1−y^)
分類規則:
prediction={01y^<0.5y^≥0.5
其中,y是正確的類別(0或1),y^是模型的輸出y經過變換的結果(y^=sigmod(y)=P(y=1∣x)),即y^爲樣本爲1的概率。
多分類:分類交叉熵損失、負對數似然損失
- 損失函數:
Lcross−entropy(y^,y)=−i∑y[i]log(y^[i])
其中,y是正確類別分佈向量(y=y[1],y[2],…,y[n]),y^是經過softmax轉換的模型(線性分類器)輸出向量(y^=y^[1],y^[2],…,y^[n],y^[i]=P(y=i∣x))。
- 簡化版:
- 對於訓練樣本有且只有一個正確的類別這類嚴格的分類問題來說,y是一個代表正確類別的獨熱向量:
Lcross−entropy(hard classification)(y^,y)=−log(y^[t])
其中,t是正確的類別。
- 目標:
- (正常版)最小化正確類別分佈y與預測類別分佈y^之間的相異度
- (簡化版)使正確類別的概率最大
評價
- 常見於對數線性模型和神經網絡文獻中
- 用於構造一個不僅可以預測最好類別也可以預測可能類別分佈的多分類器
4. 等級損失
注:還沒整明白
margin
- 損失函數:
Lranking(margin)(x,x′)=max(0,1−(f(x)−f(x′)))
log
- 損失函數:
Lranking(log)(x,x′)=log(1+exp(−f(x)−f(x′))))