1 信息熵的定义

在维基百科中信息熵的定义如下：

熵:是接受每条消息中包含的信息的平均量，又称为信息熵、信源熵、平均自信息量。这里“消息”代表来自分布或者是数据流中的事件、样本或者特征。熵用于表示不确定性的度量。

在香农的《通信的数学理论》将离散的信号源表示为一个马尔可夫过程并系统给整个过程在某段事件内“生成”的信息量有一个合理的度量，从而做出如下假设：

假设有一个可能事件集合，这些事件发生的概率为 $p_1,p_2,...,p_n$ 。这些事情发生的概率事已知的但是不知道其他的信息。我们是否能够找到一种度量，用来测量这些输出中有多少不确定性。

在此基础上如果存在一种度量例如 $H(p_1,p_2,...,p_n)$ 来计算不确定性，那么 $H$ 应该具有如下特性:

连续性： $H$ 应当关于 $p_i$ 连续，也就是对每一个 $p_i$ 都有一个对应的不确定性度量 $H_i$

单调性：如果所有的事件概率都相等，即使 $p_i=\frac{1}{n}$ ，则 $H$ 应该是n的单调递增函数。如果事件的可能性相等，那可能事件越多，选择或者说不确定性也越多。

可加性：如果一个选择分解为两项连续的选择，原来的信息度量是各个 $H$ 的加权和。下图中展示了这种说法的含义。左侧的三个概率为分别为: $p_1=\frac{1}{2}, p_2=\frac{1}{3}, p_3=\frac{1}{6}$ 。在右侧，我们首先以概率 $p=\frac{1}{2}$ 在两种可靠性中做选择，如果发生第二种情况，则继续以后续概率 $\{\frac{2}{3}, \frac{1}{3}\}$ 做选择，这种情况左边的选择方式和后面的选择方式具有相同的概率值。在这种情况下要求:
$H(\frac{1}{2},\frac{1}{3},\frac{1}{6})=H(\frac{1}{2},\frac{1}{2}) + \frac{1}{2}H(\frac{2}{3},\frac{1}{3})$

基于上述假设中的三条性质能够满足上述三个特性的 $H$ 如下:
$H=-k\sum^{n}_{i=1}p_i log p_i$
其中K是一个常数用来选择度量单位。

那么形如 $H=-\sum p_i log p_i$ 的量称为概率集 $p_1,p_2,...,p_n$ 的熵。如果 $x$ 是一个随机变量，我们将 $H(x)$ 记为随机变量 $x$ 的熵，因此 $x$ 不是一个函数的参数，而是一个数值的记号，用于区分 $H(y)$ ，其中 $H(y)$ 表示随机变量 $y$ 的熵。

例如某个信号源随机输出变量 $x \in \{0,1\}$ ,并且 $p(x=0)=\frac{1}{2}$ 同样的 $p(x=2)=\frac{1}{2}$ 那么计算信号源某次输出信号输出所携带的信息量为：
$H(x) = -\frac{1}{2} {log}_2\frac{1}{2} - \frac{1}{2} log_2 \frac{1}{2} = 1\ bit$

假设这个信号源输出的两个连续信号独立，那么连续输出两个信号所携带的信息量为：
$H(x) = - \frac{1}{4} log_2 \frac{1}{4} - - \frac{1}{4} log_2 \frac{1}{4} - \frac{1}{4} log_2 \frac{1}{4} - \frac{1}{4} log_2 \frac{1}{4} = 2\ bit$

假设这个信号源输出两个连续信号之间不独立并且第一次输出概率相等都为 $\frac{1}{2}$ ，第二次输出与上一次输出的结果有关，当第一次输出为 $1$ ,下一次输出为 $1$ 的概率为 $\frac{1}{4}$ ,否则为 $\frac{1}{8}$ ,那么连续输出两次所包含的信息量为:
$H(x) = H(\frac{1}{2},\frac{1}{2}) + \frac{1}{2}H(\frac{1}{4}, \frac{3}{4}) + \frac{1}{2}H(\frac{1}{8}, \frac{7}{8})$

2 信息熵的性质

性质 1：当且仅当所有 $p_i$ 中只有一个取值为单位 $1$ ，其他的均值为 $0$ 时， $H=0$ 。仅当我们可以确定输出结果的时， $H$ 消失。否则 $H$ 为正数。
性质 2：对于某一个时间给定了有 $n$ 中可能，当所有的 $p_i$ 都相等 $(即\frac{1}{n})$ 的时候, $H$ 达到最大的值 $log n$ 。这种情况就是我们直觉上所感受的最具有不确定性的情形。
性质 3：有两个事件 $x$ 和 $y$ ，如果第一个事件有 $m$ 种可能性，第二个事情有 $n$ 种可能性。设 $p(i,j)$ 为事件 $i$ 和事件 $j$ 的联合概率。这一联合事件的熵为:
$H(x,y) = -\sum_{i,j} p(i,j)\; log\; p(i,j)$
而:
$H(x) = -\sum_{i,j}p(i,j) log\sum_j p(i,j)$
$H(y) = -\sum_{i,j}p(i,j) log\sum_ip(i,j)$
容易证明:
$H(x,y) \leq H(x) + H(y)$
当且仅当这些事件独立的时候 $p(i,j) = p(i)\cdotp(j)$ 时等号成立，一个联合事件的不确定性，小于等于各个事件的不确定性之和。

可以理解为，当事件不独立的情况下，事件 $x$ 携带了事件 $y$ 中的部分信息，同时事件 $y$ 中也携带了事件 $x$ 中的部分信息，两个事件携带的信息量有一部分重合，因此总的信息量小於单个信息量的累加

性质 4：任何使得概率 $p_1, p_2,...,p_n$ 趋于相等的改变都会使 $H$ 增大。因此，如果 $p_1 < p_2$ ，而且我们使 $p_1$ 增大， $p_2$ 减小一个相等量，则H增大。
性质 5: 和性质3中一样，假定有两个随机事件 $x$ 和随机事件 $y$ ，他们不一定相互独立。对于 $x$ 可以取到的任意特定值 $i$ ,存在一个 $y$ 取值的 $j$ 的条件概率 $p_i(j)$ ，此概率给出如下:
$p_i(j)=\frac{p(i,j)}{\sum_{j}p(i,j)}$
我们将 $y$ 的条件熵 $H_x(y)$ 定义为关于每个值 $x$ , $y$ 的熵的加权平均，加权值为 $x$ 值的特定概率。即:
$H_x(y) = - \sum_{i,j}p(i,j)\ log\ p_i(j)$
用上述公式来度量，当我们已知事件 $x$ 的时候，事件 $y$ 的不确定性，可以得到:
$H(x,y) = H(x) + H_x(y)$
性质 6: 根据公式3和公式5可以得到:
$H(x) + H(y) \geq H(x,y) = H(x) + H_x(y)$
因此：
$H(y) \geq H_x(y)$

3 连续分布的熵

对于离散的概率集 $p_1,p_2,...,p_n$ 的熵定义为:
$H = -\sum p_i\ log\ p_i$
对于一个概率密度函数分布为 $p(x)$ 的连续分布，可以采用类似方式，将它的熵定义为:
$H=-\int_{-\infty}^{\infty} p(x)\ log\ p(x)\ dx$
对于一个 $n$ 维的分布 $p(x_1,x_2,...,x_n)$ ,有:
$H = -\int\cdots\int p(x1,...,x_n)\ log\ p(x_1,...,x_n)\ dx_1...dx_n$
如果有两个事件 $x,y$ 并且这两个事件本身可能是多维的，则 $p(x,y)$ 的联合熵和条件熵分别为：
$H(x,y) = - \int\int\ p(x,y)\ log\ p(x,y)\ dx\ dy$
和：
$H_x(y) = - \int\int\ p(x,y)\ log\frac{p(x,y)}{p(x)} dx\ dy$
$H_y(x) = - \int\int\ p(x,y)\ log\frac{p(x,y)}{p(y)} dx\ dy$
其中：
$p(x) = \int p(x, y)\ dy$
$p(y) = \int p(x,y)\ dx$

5 参考内容

[1] 信息熵维基百科
[2] 通信的数学理论

个人微信公众号：【查叔笔录】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

交叉熵三连(1)——信息熵

1 信息熵的定义

2 信息熵的性质

3 连续分布的熵

5 参考内容

[转帖]使用NMT和pmap解决JVM资源泄漏问题原创

Python实现大麦网抢票的四大关键技术点解析

Python 安装库指令大全

salesforce零基础学习（一百三十八）零碎知识点小总结（十）

一款开源的.NET程序集反编译、编辑和调试神器

关于接口协议，你必须要知道这些！

【2024-05-21】以茶会友

大規模向量相似度計算(二)——hnswlib的參數含義

我寫的文章突然上了CSDN的熱榜

一天天神神叨叨的

大規模向量相似度計算(一)——hnswlib的基本使用示例

神奇的成功學法門

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結