1 信息熵的定義

在維基百科中信息熵的定義如下：

熵:是接受每條消息中包含的信息的平均量，又稱爲信息熵、信源熵、平均自信息量。這裏“消息”代表來自分佈或者是數據流中的事件、樣本或者特徵。熵用於表示不確定性的度量。

在香農的《通信的數學理論》將離散的信號源表示爲一個馬爾可夫過程並系統給整個過程在某段事件內“生成”的信息量有一個合理的度量，從而做出如下假設：

假設有一個可能事件集合，這些事件發生的概率爲 $p_1,p_2,...,p_n$ 。這些事情發生的概率事已知的但是不知道其他的信息。我們是否能夠找到一種度量，用來測量這些輸出中有多少不確定性。

在此基礎上如果存在一種度量例如 $H(p_1,p_2,...,p_n)$ 來計算不確定性，那麼 $H$ 應該具有如下特性:

連續性： $H$ 應當關於 $p_i$ 連續，也就是對每一個 $p_i$ 都有一個對應的不確定性度量 $H_i$

單調性：如果所有的事件概率都相等，即使 $p_i=\frac{1}{n}$ ，則 $H$ 應該是n的單調遞增函數。如果事件的可能性相等，那可能事件越多，選擇或者說不確定性也越多。

可加性：如果一個選擇分解爲兩項連續的選擇，原來的信息度量是各個 $H$ 的加權和。下圖中展示了這種說法的含義。左側的三個概率爲分別爲: $p_1=\frac{1}{2}, p_2=\frac{1}{3}, p_3=\frac{1}{6}$ 。在右側，我們首先以概率 $p=\frac{1}{2}$ 在兩種可靠性中做選擇，如果發生第二種情況，則繼續以後續概率 $\{\frac{2}{3}, \frac{1}{3}\}$ 做選擇，這種情況左邊的選擇方式和後面的選擇方式具有相同的概率值。在這種情況下要求:
$H(\frac{1}{2},\frac{1}{3},\frac{1}{6})=H(\frac{1}{2},\frac{1}{2}) + \frac{1}{2}H(\frac{2}{3},\frac{1}{3})$

基於上述假設中的三條性質能夠滿足上述三個特性的 $H$ 如下:
$H=-k\sum^{n}_{i=1}p_i log p_i$
其中K是一個常數用來選擇度量單位。

那麼形如 $H=-\sum p_i log p_i$ 的量稱爲概率集 $p_1,p_2,...,p_n$ 的熵。如果 $x$ 是一個隨機變量，我們將 $H(x)$ 記爲隨機變量 $x$ 的熵，因此 $x$ 不是一個函數的參數，而是一個數值的記號，用於區分 $H(y)$ ，其中 $H(y)$ 表示隨機變量 $y$ 的熵。

例如某個信號源隨機輸出變量 $x \in \{0,1\}$ ,並且 $p(x=0)=\frac{1}{2}$ 同樣的 $p(x=2)=\frac{1}{2}$ 那麼計算信號源某次輸出信號輸出所攜帶的信息量爲：
$H(x) = -\frac{1}{2} {log}_2\frac{1}{2} - \frac{1}{2} log_2 \frac{1}{2} = 1\ bit$

假設這個信號源輸出的兩個連續信號獨立，那麼連續輸出兩個信號所攜帶的信息量爲：
$H(x) = - \frac{1}{4} log_2 \frac{1}{4} - - \frac{1}{4} log_2 \frac{1}{4} - \frac{1}{4} log_2 \frac{1}{4} - \frac{1}{4} log_2 \frac{1}{4} = 2\ bit$

假設這個信號源輸出兩個連續信號之間不獨立並且第一次輸出概率相等都爲 $\frac{1}{2}$ ，第二次輸出與上一次輸出的結果有關，當第一次輸出爲 $1$ ,下一次輸出爲 $1$ 的概率爲 $\frac{1}{4}$ ,否則爲 $\frac{1}{8}$ ,那麼連續輸出兩次所包含的信息量爲:
$H(x) = H(\frac{1}{2},\frac{1}{2}) + \frac{1}{2}H(\frac{1}{4}, \frac{3}{4}) + \frac{1}{2}H(\frac{1}{8}, \frac{7}{8})$

2 信息熵的性質

性質 1：當且僅當所有 $p_i$ 中只有一個取值爲單位 $1$ ，其他的均值爲 $0$ 時， $H=0$ 。僅當我們可以確定輸出結果的時， $H$ 消失。否則 $H$ 爲正數。
性質 2：對於某一個時間給定了有 $n$ 中可能，當所有的 $p_i$ 都相等 $(即\frac{1}{n})$ 的時候, $H$ 達到最大的值 $log n$ 。這種情況就是我們直覺上所感受的最具有不確定性的情形。
性質 3：有兩個事件 $x$ 和 $y$ ，如果第一個事件有 $m$ 種可能性，第二個事情有 $n$ 種可能性。設 $p(i,j)$ 爲事件 $i$ 和事件 $j$ 的聯合概率。這一聯合事件的熵爲:
$H(x,y) = -\sum_{i,j} p(i,j)\; log\; p(i,j)$
而:
$H(x) = -\sum_{i,j}p(i,j) log\sum_j p(i,j)$
$H(y) = -\sum_{i,j}p(i,j) log\sum_ip(i,j)$
容易證明:
$H(x,y) \leq H(x) + H(y)$
當且僅當這些事件獨立的時候 $p(i,j) = p(i)\cdotp(j)$ 時等號成立，一個聯合事件的不確定性，小於等於各個事件的不確定性之和。

可以理解爲，當事件不獨立的情況下，事件 $x$ 攜帶了事件 $y$ 中的部分信息，同時事件 $y$ 中也攜帶了事件 $x$ 中的部分信息，兩個事件攜帶的信息量有一部分重合，因此總的信息量小於單個信息量的累加

性質 4：任何使得概率 $p_1, p_2,...,p_n$ 趨於相等的改變都會使 $H$ 增大。因此，如果 $p_1 < p_2$ ，而且我們使 $p_1$ 增大， $p_2$ 減小一個相等量，則H增大。
性質 5: 和性質3中一樣，假定有兩個隨機事件 $x$ 和隨機事件 $y$ ，他們不一定相互獨立。對於 $x$ 可以取到的任意特定值 $i$ ,存在一個 $y$ 取值的 $j$ 的條件概率 $p_i(j)$ ，此概率給出如下:
$p_i(j)=\frac{p(i,j)}{\sum_{j}p(i,j)}$
我們將 $y$ 的條件熵 $H_x(y)$ 定義爲關於每個值 $x$ , $y$ 的熵的加權平均，加權值爲 $x$ 值的特定概率。即:
$H_x(y) = - \sum_{i,j}p(i,j)\ log\ p_i(j)$
用上述公式來度量，當我們已知事件 $x$ 的時候，事件 $y$ 的不確定性，可以得到:
$H(x,y) = H(x) + H_x(y)$
性質 6: 根據公式3和公式5可以得到:
$H(x) + H(y) \geq H(x,y) = H(x) + H_x(y)$
因此：
$H(y) \geq H_x(y)$

3 連續分佈的熵

對於離散的概率集 $p_1,p_2,...,p_n$ 的熵定義爲:
$H = -\sum p_i\ log\ p_i$
對於一個概率密度函數分佈爲 $p(x)$ 的連續分佈，可以採用類似方式，將它的熵定義爲:
$H=-\int_{-\infty}^{\infty} p(x)\ log\ p(x)\ dx$
對於一個 $n$ 維的分佈 $p(x_1,x_2,...,x_n)$ ,有:
$H = -\int\cdots\int p(x1,...,x_n)\ log\ p(x_1,...,x_n)\ dx_1...dx_n$
如果有兩個事件 $x,y$ 並且這兩個事件本身可能是多維的，則 $p(x,y)$ 的聯合熵和條件熵分別爲：
$H(x,y) = - \int\int\ p(x,y)\ log\ p(x,y)\ dx\ dy$
和：
$H_x(y) = - \int\int\ p(x,y)\ log\frac{p(x,y)}{p(x)} dx\ dy$
$H_y(x) = - \int\int\ p(x,y)\ log\frac{p(x,y)}{p(y)} dx\ dy$
其中：
$p(x) = \int p(x, y)\ dy$
$p(y) = \int p(x,y)\ dx$

5 參考內容

[1] 信息熵維基百科
[2] 通信的數學理論

個人微信公衆號：【查叔筆錄】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

交叉熵三連(1)——信息熵

1 信息熵的定義

2 信息熵的性質

3 連續分佈的熵

5 參考內容

ziw2pdf

sql高級語法

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

大規模向量相似度計算(二)——hnswlib的參數含義

我寫的文章突然上了CSDN的熱榜

一天天神神叨叨的

大規模向量相似度計算(一)——hnswlib的基本使用示例

神奇的成功學法門

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結