深度學習(3)損失函數-交叉熵(CrossEntropy)

原創

theFlyer

2018-08-26 10:08

歡迎來到theFlyer的博客—希望你有不一樣的感悟

前言：交叉熵損失函數。

1. 損失函數

機器學習算法都或多或少的依賴於對目標函數最大化或者最小化的過程，常常把最小化的函數稱爲損失函數，它主要用於衡量機器學習模型的預測能力。

損失函數可以看出模型的優劣，提供了優化的方向，但是沒有任何一種損失函數適用於所有的模型。損失函數的選取依賴於參數的數量、異常值、機器學習算法、梯度下降的效率、導數求取的難易和預測的置信度等若干方面。

2. 交叉熵

對數損失Log Loss ，也被稱爲交叉熵損失Cross-entropy Loss，是定義在概率分佈的基礎上的。它通常用於多項式(multinomia)logistic regression 和神經網絡，還有在期望極大化算法(expectation-maximization)的一些變體中。

對數損失用來度量分類器的預測輸出的概率分佈(predict_proba)和真實分佈的差異，而不是去比較離散的類標籤是否相同。

2.1任務爲二分類時

在二分類的時候，真實標籤集合爲：Y∈{0,1}, 而分類器預測得到的概率分佈：P = Pr(y=1)

那麼，每一個樣本的對數損失就是在給定真實樣本標籤的條件下，分類器的負對數似然函數，如下所示：

當某個樣本的真實標籤y=1時， $L o s s = - l o p (p)$ ,分類器的預測概率p=Pr(y=1)的概率越小，則分類損失就越大；反之，分類器的預測概率p=Pr(y=1)的概率越大，則分類損失就越小。
對於真實標籤y=0， $L o s s = - l o g (1 - p)$ ,分類器的預測概率p=Pr(y=1)的概率越大，則損失越大。

例：預測爲貓的p=Pr(y=1)概率是0.8，真實標籤y=1；預測不是貓的1-p=Pr(y=0)概率是0.2，真實標籤爲0。

*	是貓	不是貓
標籤	1	0
預測	0.8	0.2

此時損失爲

l o s s = - (1 * l o g (0.8) + 0 * l o g (0.2)) = - l o g (0.8)

2.2任務爲多元分類時

在多元分類的時候，假定有k個類，則類標籤集合就是labels=(1,2,3,…,k).如果第i個樣本的類標籤是k的話，就記爲 $y_{i},_{k} = 1$ 。採用one-hot記法。每個樣本的真實標籤就是一個one-hot向量，其中只有一個位置記爲1。

例：設共有5類，label =3時，one-hot形式如下

標籤	one-hot
3	00100

N個樣本的真實類標籤就是一個N行K列的矩陣：Y

Y	class 0	class1	class1
sample1	0	1	0
sample2	1	0	0
sample3	0	1	0
sample4	0	0	1
sample5	1	0	0

分類器對N個樣本的每一個樣本都會預測出它屬於每個類的概率，這樣的概率矩陣P就是N行K列的。

P	class 0	class1	class1
sample1	0.2	0.7	0.1
sample2	0.5	0.2	0.3
sample3	0.3	0.4	0.3
sample4	0.2	0.3	0.5
sample5	0.3	0.3	0.4

整個樣本集合上分類器的對數損失就可以如下定義：

此時損失爲

l o s s = - \frac{1}{5} (0 * l o g (0.2) + 1 * l o g (0.7) + 0 * l o g (0.1) + 1 * l o g (0.5) + 0 * l o g (0.2) + 0 * l o g (0.3) + 0 * l o g (0.3) + 1 * l o g (0.4) + 0 * l o g (0.3) + 0 * l o g (0.2) + 0 * l o g (0.3) + 1 * l o g (0.5) + 1 * l o g (0.3) + 0 * l o g (0.3) + 0 * l o g (0.4)) = - \frac{1}{5} (l o g (0.7) + l o g (0.5) + l o g (0.4) + l o g (0.5) + l o g (0.3))

2.3任務爲多標籤分類時

多標籤是在一種圖片有多個類別時，比如一張圖片同時有貓狗。

*	貓	狗	兔
標籤	1	1	0
預測	0.8	0.7	0.1

與之前不一樣的是，預測不再通過softmax計算，而是採用sigmoid把輸出限制到(0,1)。正因此預測值得加和不再是1。這裏交叉熵單獨對每一個類別計算，每一個類別有兩種可能的類別，即屬於這個類的概率或不屬於這個類的概率。

例：單張圖片損失計算可以爲

l o s s = l o s s_{貓} + l o s s_{狗} + l o s s_{兔}

各類損失計算如下

l o s s_{貓} = - (1 * l o g (0.8) + (1 - 0) * l o g (1 - 0.8)) = - l o g (0.8) l o s s_{狗} = - (1 * l o g (0.7) + 0 * l o g (0.3)) = - l o g (0.7) l o s s_{兔} = - (0 * l o g (0.1) + 1 * l o g (0.9)) = - l o g (0.9)

對於整體損失可以用下式：

後記
人生如苦旅，我亦是行人。
個人公衆號

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度學習(3)損失函數-交叉熵(CrossEntropy)

歡迎來到theFlyer的博客—希望你有不一樣的感悟

1. 損失函數

2. 交叉熵

2.1任務爲二分類時

2.2任務爲多元分類時

2.3任務爲多標籤分類時

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

從詞嵌入到文檔距離 (RWMD)

開山-web安全基礎(1)常見web漏洞解析

深度學習(4)Dropout/BatchNomalization原理

深度學習(3)損失函數-交叉熵(CrossEntropy)

開山-深度學習(1)RNN循環神經網絡

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結