交叉熵和相對熵(KL散度), 極大似然估計求loss, softmax多分類

看了一篇好文章, 講解交叉熵和相對熵, 之前就想弄懂, 今天仔細研究了一下.
文章鏈接: 交叉熵（Cross-Entropy）

信息量
定義事件 $X=x_0$ 發生時的信息量爲：定義事件 $X=x_0$ 發生時的信息量爲：
$I(x_0)=−log(p(x_0))$ 一個事件發生的概率越大，則它發生時所攜帶的信息量就越小，當 $p(x_0)=1$ 時，熵將等於0，表示該事件的發生不會導致任何信息量的增加.
不確定度
對一個事件 $X$ 所有可能的發生結果 $x_1, x_2,...$ 帶來的額外信息量求期望 $E(I(x))$ ，其結果就能衡量出這個事件 $X$ 的不確定度,稱爲熵(不確定度的量度). $H(X) = -\sum_{x\in X}p(x)log(p(x))$ 舉個例子, A、B、C事件均爲0~1分佈, 正例發生的概率分別爲0.001, 0.1和0.5, 那麼 $H_A(x) = -[p(x_A=0)log(p(x_A=0))+(p(x_A=1))log(p(x_A=1))] = 0.0114$ $H_B(x) = -[p(x_B=0)log(p(x_B=0))+(p(x_B=1))log(p(x_B=1))] = 0.4690$ $H_C(x) = -[p(x_C=0)log(p(x_C=0))+(p(x_C=1))log(p(x_C=1))] = 1$ 這與我們的常識認知也是一致的, A事件中正例很有可能發生、B事件中正例基本有可能發生、C事件中正例和反例都有可能發生, ABC中到底是正例還是反例發生的不確定度越來越高. $\newline$
相對熵(KL散度)
相對熵定義爲: $D_{KL}(p||q) = E_p[log\frac{p(x)}{q(x)}] = \sum_{x\in X}p(x)log\frac{p(x)}{q(x)} = H_p(q) - H(p)$ 它用來度量兩個分佈p(真實分佈),q(假設分佈)之間的距離. 表示當真實分佈爲p時, 假設分佈q的無效性. 當p=q時, 相對熵=0, 表示兩個分佈相等.
解釋: $H_p(q)$ 表示在p分佈下, 用q進行編碼所需的bit數, $H(p)$ 表示分佈p的最優編碼bit數, 所以 $D_{KL}(p||q)$ 表示真實分佈爲p的前提下, 使用q分佈進行編碼相對於直接用p分佈進行編碼(最優編碼)所多出來的bit數(q相對p的無效性). 優化相對熵, 即等於優化假設分佈q來擬合真實分佈p.
關於爲什麼 $H(p)$ 爲什麼是分佈p的最優編碼數, 參考知乎"信息熵是什麼?"的回答, 同理可得 $H_p(q)$ .
交叉熵(cross_entropy)
交叉熵就是 $H_p(q)$ : $H_p(q) = D_{KL}(p||q)+H(p) = -\sum_{x\in X}p(x)log(q(x))$ 因爲真實分佈p是確定的, $H(p)$ 爲一個常數, 優化 $H_p(q)$ 就等於優化 $D_{KL}(p||q)$ , 所以在機器學習/深度學習中, 我們可以把交叉熵作爲損失函數進行優化, 從而讓假設分佈儘可能的接近真實分佈.
在邏輯迴歸中:
p:真實樣本分佈，服從參數爲p的0-1分佈，即X∼B(1,p)
q:待估計的模型，服從參數爲q的0-1分佈，即X∼B(1,q)
它們的交叉熵爲
$\begin{aligned} H_p(q) &= -\sum_{x\in X}p(x)log(q(x)) \\&= -[p * log(q) + (1-p) * log(1-q)] \\&= -[y * log(h_\theta(x)) + (1-y) * log(1-h_\theta(x))] \end{aligned}$
對所有樣本取均值:
$loss = -\frac{1}{m} \sum_{i=1}^{m}[y^{(i)} * log(h_\theta(x^{(i)})) + (1-y^{(i)}) * log(1-h_\theta(x^{(i)}))]$
與通過極大似然估計方法求出來的loss結果是一致的.
極大似然估計求loss(二分類)
二項 logistic regression模型的條件概率分佈:
$P(Y=1|x) = h_w(x) = \frac{exp(w \cdot x + b)}{1 + exp(w \cdot x + b)}$ $p(Y=0|x) = 1 - h_w(x) = \frac{1}{1 + exp(w \cdot x + b)}$ 似然函數爲: $\prod_{i=1}^m[h_w(x_i)]^{y_i}[1-h_w(x_i)]^{1-y_i}$ 對數似然函數: $L(w) = \sum_{i=1}^m[y_ilog(h_w(x_i)) + (1-y_i)log(1-h_w(x_i))]$ 定義loss: $loss = -\frac{1}{m}\sum_{i=1}^m[y_ilog(h_w(x_i)) + (1-y_i)log(1-h_w(x_i))]$ 梯度計算公式: $Z = w \cdot x + b$ $\frac{\partial L}{\partial Z} = dZ = \hat y - y$

極大化對數似然函數求 $\hat w$ , 等於極小化 $loss$

softmax 多分類
多項 logistic regression 模型的概率分佈:
$P(Y=k|x) = \frac{exp(w_k \cdot x)}{1 + \sum_{k=1}^{K-1}exp(w_k \cdot x)}, k = 1,2,..., K-1$ $P(Y=K|x) = \frac{1}{1 + \sum_{k=1}^{K-1}exp(w_k \cdot x)}$
同樣可以通過極大似然估計或者交叉熵原理得到 $loss$ :
單個數據: $loss(\hat y, y) = -\sum_{j=1}^cy_jlog\hat y_j$ 多個數據: $loss = -\frac{1}{m}\sum_{i=1}^m\sum_{j=1}^cy_j^{(i)}log\hat y_j^{(i)}$ 梯度計算公式: $\frac{\partial L}{\partial Z^{[L]}} = dZ^{[L]} = \hat y - y$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

交叉熵和相對熵(KL散度), 極大似然估計求loss, softmax多分類

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

交叉熵和相對熵(KL散度), 極大似然估計求loss, softmax多分類

創建阿里雲ecs並用mac連接的步驟(一)

阿里雲安裝運行jupyter notebook並在本地瀏覽器打開(二)

tensorflow之數據讀取 -- 用tf.data通過tfrecord讀取數據或者直接讀取數據

Coursera DeepLearning.AI課程資料整理(未完結)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結