簡單的交叉熵損失函數，

https://blog.csdn.net/red_stone1/article/details/80735068轉載。

說起交叉熵損失函數「Cross Entropy Loss」，腦海中立馬浮現出它的公式：

L=−[ylog y^+(1−y)log (1−y^)]
L=−[ylog y^+(1−y)log (1−y^)]
我們已經對這個交叉熵函數非常熟悉，大多數情況下都是直接拿來使用就好。但是它是怎麼來的？爲什麼它能表徵真實樣本標籤和預測概率之間的差值？上面的交叉熵函數是否有其它變種？也許很多朋友還不是很清楚！沒關係，接下來我將儘可能以最通俗的語言回答上面這幾個問題。

1. 交叉熵損失函數的數學原理
我們知道，在二分類問題模型：例如邏輯迴歸「Logistic Regression」、神經網絡「Neural Network」等，真實樣本的標籤爲 [0，1]，分別表示負類和正類。模型的最後通常會經過一個 Sigmoid 函數，輸出一個概率值，這個概率值反映了預測爲正類的可能性：概率越大，可能性越大。

Sigmoid 函數的表達式和圖形如下所示：

g(s)=11+e−s
g(s)=11+e−s

其中 s 是模型上一層的輸出，Sigmoid 函數有這樣的特點：s = 0 時，g(s) = 0.5；s >> 0 時， g ≈ 1，s << 0 時，g ≈ 0。顯然，g(s) 將前一級的線性輸出映射到 [0，1] 之間的數值概率上。這裏的 g(s) 就是交叉熵公式中的模型預測輸出。

我們說了，預測輸出即 Sigmoid 函數的輸出表徵了當前樣本標籤爲 1 的概率：

y^=P(y=1|x)
y^=P(y=1|x)
很明顯，當前樣本標籤爲 0 的概率就可以表達成：

1−y^=P(y=0|x)
1−y^=P(y=0|x)
重點來了，如果我們從極大似然性的角度出發，把上面兩種情況整合到一起：

P(y|x)=y^y⋅(1−y^)1−y
P(y|x)=y^y⋅(1−y^)1−y
不懂極大似然估計也沒關係。我們可以這麼來看：

當真實樣本標籤 y = 0 時，上面式子第一項就爲 1，概率等式轉化爲：

P(y=0|x)=1−y^
P(y=0|x)=1−y^
當真實樣本標籤 y = 1 時，上面式子第二項就爲 1，概率等式轉化爲：

P(y=1|x)=y^
P(y=1|x)=y^
兩種情況下概率表達式跟之前的完全一致，只不過我們把兩種情況整合在一起了。

重點看一下整合之後的概率表達式，我們希望的是概率 P(y|x) 越大越好。首先，我們對 P(y|x) 引入 log 函數，因爲 log 運算並不會影響函數本身的單調性。則有：

L=−[ylog y^+(1−y)log (1−y^)]
L=−[ylog y^+(1−y)log (1−y^)]
非常簡單，我們已經推導出了單個樣本的損失函數，是如果是計算 N 個樣本的總的損失函數，只要將 N 個 Loss 疊加起來就可以了：

L=∑i=1Ny(i)log y^(i)+(1−y(i))log (1−y^(i))
L=∑i=1Ny(i)log y^(i)+(1−y(i))log (1−y^(i))
這樣，我們已經完整地實現了交叉熵損失函數的推導過程。

2. 交叉熵損失函數的直觀理解
可能會有讀者說，我已經知道了交叉熵損失函數的推導過程。但是能不能從更直觀的角度去理解這個表達式呢？而不是僅僅記住這個公式。好問題！接下來，我們從圖形的角度，分析交叉熵函數，加深大家的理解。

首先，還是寫出單個樣本的交叉熵損失函數：

L=−[ylog y^+(1−y)log (1−y^)]
L=−[ylog y^+(1−y)log (1−y^)]
我們知道，當 y = 1 時：

L=−log y^
L=−log y^
這時候，L 與預測輸出的關係如下圖所示：

看了 L 的圖形，簡單明瞭！橫座標是預測輸出，縱座標是交叉熵損失函數 L。顯然，預測輸出越接近真實樣本標籤 1，損失函數 L 越小；預測輸出越接近 0，L 越大。因此，函數的變化趨勢完全符合實際需要的情況。

當 y = 0 時：

L=−log (1−y^)
L=−log (1−y^)
這時候，L 與預測輸出的關係如下圖所示：

同樣，預測輸出越接近真實樣本標籤 0，損失函數 L 越小；預測函數越接近 1，L 越大。函數的變化趨勢也完全符合實際需要的情況。

從上面兩種圖，可以幫助我們對交叉熵損失函數有更直觀的理解。無論真實樣本標籤 y 是 0 還是 1，L 都表徵了預測輸出與 y 的差距。

另外，重點提一點的是，從圖形中我們可以發現：預測輸出與 y 差得越多，L 的值越大，也就是說對當前模型的 “ 懲罰 ” 越大，而且是非線性增大，是一種類似指數增長的級別。這是由 log 函數本身的特性所決定的。這樣的好處是模型會傾向於讓預測輸出更接近真實樣本標籤 y。

3. 交叉熵損失函數的其它形式
什麼？交叉熵損失函數還有其它形式？沒錯！我剛纔介紹的是一個典型的形式。接下來我將從另一個角度推導新的交叉熵損失函數。

這種形式下假設真實樣本的標籤爲 +1 和 -1，分別表示正類和負類。有個已知的知識點是Sigmoid 函數具有如下性質：

1−g(s)=g(−s)
1−g(s)=g(−s)
這個性質我們先放在這，待會有用。

好了，我們之前說了 y = +1 時，下列等式成立：

P(y=+1|x)=g(s)
P(y=+1|x)=g(s)
如果 y = -1 時，並引入 Sigmoid 函數的性質，下列等式成立：

P(y=−1|x)=1−g(s)=g(−s)
P(y=−1|x)=1−g(s)=g(−s)
重點來了，因爲 y 取值爲 +1 或 -1，可以把 y 值帶入，將上面兩個式子整合到一起：

P(y|x)=g(ys)
P(y|x)=g(ys)
這個比較好理解，分別令 y = +1 和 y = -1 就能得到上面兩個式子。

接下來，同樣引入 log 函數，得到：

log P(y|x)=log g(ys)
log P(y|x)=log g(ys)
要讓概率最大，反過來，只要其負數最小即可。那麼就可以定義相應的損失函數爲：

L=−logg(ys)
L=−logg(ys)
還記得 Sigmoid 函數的表達式吧？將 g(ys) 帶入：

L=−log11+e−ys=log (1+e−ys)
L=−log11+e−ys=log (1+e−ys)
好咯，L 就是我要推導的交叉熵損失函數。如果是 N 個樣本，其交叉熵損失函數爲：

L=∑i=1Nlog (1+e−ys)
L=∑i=1Nlog (1+e−ys)
接下來，我們從圖形化直觀角度來看。當 y = +1 時：

L=log (1+e−s)
L=log (1+e−s)
這時候，L 與上一層得分函數 s 的關係如下圖所示：

橫座標是 s，縱座標是 L。顯然，s 越接近真實樣本標籤 1，損失函數 L 越小；s 越接近 -1，L 越大。

另一方面，當 y = -1 時：

L=log(1+es)
L=log(1+es)
這時候，L 與上一層得分函數 s 的關係如下圖所示：

同樣，s 越接近真實樣本標籤 -1，損失函數 L 越小；s 越接近 +1，L 越大。

4. 總結
本文主要介紹了交叉熵損失函數的數學原理和推導過程，也從不同角度介紹了交叉熵損失函數的兩種形式。第一種形式在實際應用中更加常見，例如神經網絡等複雜模型；第二種多用於簡單的邏輯迴歸模型。

簡單的交叉熵損失函數，

985 碩士程序員，空窗 4 個月沒有 Offer！

【入門教程】5分鐘教你快速學會集成Java springboot ~

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

盛大發布 | Zabbix 7.0 LTS--性能與擴展的卓越融合

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

GAN-based-HRRS-Sample-Generation-for-Image-Classification執行

tensorflow/stream_executor/cuda/cuda_dnn.cc:378] Loaded runtime CuDNN library: 7301--2019.5.12

Ubuntu16.04 RTX2080ti 安裝NVIDIA驅動+cuda9.0+cudnn7.3.0

torchnet安裝解決from torchnet.meter import ClassErrorMeter錯誤問題（cbam.pytorch執行問題）

Ubuntu18.04雙系統安裝+GPU+CUDA10+CUDNN7+ANACONDA3+PYTHON+PYCHARM

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結