二次代價函數和softmax交叉熵損失函數原理及分析

原創

2020-06-16 04:30

首先看一下二次代價函數：

以二分類問題，常見的sigmoid激活函數爲例，假設表示輸入值，表示真實標籤（0或1），表示預測輸出，則二次代價函數可表示爲：

$C=\frac{(y-a)^2}{2}$

其中 $a=\sigma (z)=\sigma (wx+b)=\frac{1}{1-e^{-x}}$

那麼代價函數對權重和偏置的偏導數分別爲：

$\frac{\partial C}{\partial w}=(\sigma (z)-y)\cdot \sigma '(z)\cdot x$

$\frac{\partial C}{\partial b}=(\sigma (z)-y)\cdot \sigma '(z)$

從上式可以分析：當代價較大即輸入輸出差別較大時， $\sigma (z)$ 的值趨於0或1，此時 $\sigma '(z)$ 的值趨於0，既權重和偏置的梯度趨於0。這與我們所期望的當代價較大即輸入輸出差別較大時，以較大的梯度下降更新權重和偏置相違背。

再看交叉熵損失函數：

同樣以二分類問題爲例，損失函數爲：

簡單分析一下：當爲1時，上式變爲：，當預測結果越接近真實標籤時損失越小。當爲0時，上式變爲：，當預測結果越接近真實標籤時同樣損失越小。這麼看來交叉熵函數具有作爲損失函數的性質。

接下來先推導一下交叉熵損失函數是怎麼來的，再從導數角度分析其作爲損失函數的可行性：

首先sigmoid函數的輸出可以表徵預測標籤的概率，假設預測標籤爲1的概率表示爲，那麼預測標籤爲0的概率則爲。根據最大似然估計，有：

$P(y|x)=a^y\cdot (1-a)^{(1-y)}$

我們希望最大，對其取對數，再取負數，有：

即變成最小化的問題，這便是交叉熵損失函數推導過程。

再看交叉熵損失函數對權重和偏置的偏導數，分別爲：

$\frac{\partial C}{\partial w}=-\left [ \frac{y}{\sigma (z)}\cdot \sigma '(z)-\frac{1-y}{1-a}\cdot \sigma '(z)]\cdot \frac{\partial z}{\partial w}\right ]=\left [ \frac{\sigma (z)-y}{\sigma (z)\left ( 1-\sigma (z) \right )}\cdot \sigma '(z) \right ]\cdot x$

將 $\sigma '(z)=\sigma (z)\left ( 1-\sigma (z) \right )$ 帶入上式，得：

$\frac{\partial C}{\partial w}=x\left [ \sigma (z)-y \right ]$

同理得： $\frac{\partial C}{\partial b}=\sigma (z)-y$

從上式可以分析：當代價較大即輸入輸出差別較大時，權重和偏置的梯度越大。這與我們所期望的當代價較大時以較大的梯度下降更新權重和偏置相符。因此，相比二次代價函數交叉熵損失函數更好。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pytorch只加載預訓練模型中的部分參數及凍結部分參數

說明比如我需要訓練車牌檢測模型, 採用retinanet, 結構爲bacnbone-fpn-retinanethead. 準備在coco數據集上預訓練. 但是coco數據集有81類, 車牌只有幾類. 預訓練完以後, retina

2020-06-28 14:44:13

NAS-FPN以及相關優化PANet/ThunderNet/HRnet/Libra-rcnn

1.NAS-FPN使用強化學習的方式對FPN網絡自動搜索，在coco數據集上得到了最好的FPN結果。可以理解爲連連看，然後連出一個最好的。如下圖：a圖爲原始的FPN，好看整齊。然後在一步一步搜索的reward下，結構組件變化。由b---

2020-06-28 14:44:13

仿射變換與透視變換的區別和共同點

1.仿射變換和透視變換都是一種線性變換, 仿射變換可以看做是透視變換的一種特例.變換矩陣爲: 其中是一個旋轉矩陣。此矩陣定義將要執行的變換的類型：縮放，旋轉等。是平移參數。它只是移動點。爲透視參數, 如果是單應變

2020-06-28 14:44:13

TensorRT、TensorFlow Lite模型量化比較

優點：以FP32到INT8量化爲例，模型存儲佔用減小爲1/4；增加數據throughput。什麼是量化：表達式：示意圖：爲什麼不使用線性量化(y=ax+b)？因爲線性量化後做乘運算會改變分佈。怎麼量化： Tenso

2020-06-16 04:30:44

Reid入門

2020-02-26 16:31:30

Global Average Pooling與FC與Average Pooling與 Global Max Pooling

2020-02-26 16:31:30

深度學習基礎知識（〇）--- 目錄

2020-02-23 20:36:24

深度學習基礎知識（六）--- 損失函數

2020-02-23 20:36:24

深度學習基礎知識（五）--- dropout

2020-02-23 20:36:24

DL理論筆記與理解

2020-02-23 06:46:02

英偉達GPU及架構

2020-02-22 02:45:43

Upsample與ConvTranspose2d

2020-02-22 02:45:33

深度學習調參技巧

2020-02-22 02:45:33

模型訓練技巧

2020-02-22 02:45:33

深度學習筆記七：循環神經網絡RNN(基本理論)

2020-02-21 05:04:07

24小時熱門文章

最新文章

最新評論文章