交叉熵三连(1)——信息熵

相关文章:
交叉熵三连(1)——信息熵
交叉熵三连(2)——KL散度(相对熵)
交叉熵三连(3)——交叉熵及其使用

1 信息熵的定义

  在维基百科中信息熵的定义如下:

熵:是接受每条消息中包含的信息的平均量,又称为信息熵、信源熵、平均自信息量。这里“消息”代表来自分布或者是数据流中的事件、样本或者特征。熵用于表示不确定性的度量。

  在香农的《通信的数学理论》将离散的信号源表示为一个马尔可夫过程并系统给整个过程在某段事件内“生成”的信息量有一个合理的度量,从而做出如下假设:

假设有一个可能事件集合,这些事件发生的概率为 p1,p2,...,pnp_1,p_2,...,p_n。这些事情发生的概率事已知的但是不知道其他的信息。我们是否能够找到一种度量,用来测量这些输出中有多少不确定性。

在此基础上如果存在一种度量例如H(p1,p2,...,pn)H(p_1,p_2,...,p_n)来计算不确定性,那么HH应该具有如下特性:

  • 连续性:HH应当关于pip_i连续,也就是对每一个pip_i都有一个对应的不确定性度量HiH_i
  • 单调性:如果所有的事件概率都相等,即使pi=1np_i=\frac{1}{n},则HH应该是n的单调递增函数。如果事件的可能性相等,那可能事件越多,选择或者说不确定性也越多。
  • 可加性:如果一个选择分解为两项连续的选择,原来的信息度量是各个HH的加权和。下图中展示了这种说法的含义。左侧的三个概率为分别为:p1=12,p2=13,p3=16p_1=\frac{1}{2}, p_2=\frac{1}{3}, p_3=\frac{1}{6}。在右侧,我们首先以概率p=12p=\frac{1}{2}在两种可靠性中做选择,如果发生第二种情况,则继续以后续概率{23,13}\{\frac{2}{3}, \frac{1}{3}\}做选择,这种情况左边的选择方式和后面的选择方式具有相同的概率值。在这种情况下要求:
    H(12,13,16)=H(12,12)+12H(23,13)H(\frac{1}{2},\frac{1}{3},\frac{1}{6})=H(\frac{1}{2},\frac{1}{2}) + \frac{1}{2}H(\frac{2}{3},\frac{1}{3})
                   分解一个具有三种可能性的选择

基于上述假设中的三条性质能够满足上述三个特性的HH如下:
H=ki=1npilogpiH=-k\sum^{n}_{i=1}p_i log p_i
其中K是一个常数用来选择度量单位。

那么形如 H=pilogpiH=-\sum p_i log p_i 的量称为概率集p1,p2,...,pnp_1,p_2,...,p_n的熵。如果xx是一个随机变量,我们将H(x)H(x)记为随机变量xx的熵,因此xx不是一个函数的参数,而是一个数值的记号,用于区分H(y)H(y),其中H(y)H(y)表示随机变量yy的熵。

例如某个信号源随机输出变量x{0,1}x \in \{0,1\},并且p(x=0)=12p(x=0)=\frac{1}{2}同样的p(x=2)=12p(x=2)=\frac{1}{2}那么计算信号源某次输出信号输出所携带的信息量为:
H(x)=12log21212log212=1 bitH(x) = -\frac{1}{2} {log}_2\frac{1}{2} - \frac{1}{2} log_2 \frac{1}{2} = 1\ bit

假设这个信号源输出的两个连续信号独立,那么连续输出两个信号所携带的信息量为:
H(x)=14log21414log21414log21414log214=2 bitH(x) = - \frac{1}{4} log_2 \frac{1}{4} - - \frac{1}{4} log_2 \frac{1}{4} - \frac{1}{4} log_2 \frac{1}{4} - \frac{1}{4} log_2 \frac{1}{4} = 2\ bit

假设这个信号源输出两个连续信号之间不独立并且第一次输出概率相等都为 12\frac{1}{2},第二次输出与上一次输出的结果有关,当第一次输出为11,下一次输出为11的概率为14\frac{1}{4},否则为18\frac{1}{8},那么连续输出两次所包含的信息量为:
H(x)=H(12,12)+12H(14,34)+12H(18,78)H(x) = H(\frac{1}{2},\frac{1}{2}) + \frac{1}{2}H(\frac{1}{4}, \frac{3}{4}) + \frac{1}{2}H(\frac{1}{8}, \frac{7}{8})

2 信息熵的性质

  • 性质 1:当且仅当所有pip_i中只有一个取值为单位11,其他的均值为00时,H=0H=0。仅当我们可以确定输出结果的时,HH消失。否则HH为正数。
  • 性质 2:对于某一个时间给定了有nn 中可能,当所有的pip_i都相等(1n)(即\frac{1}{n})的时候,HH达到最大的值lognlog n。 这种情况就是我们直觉上所感受的最具有不确定性的情形。
  • 性质 3:有两个事件xxyy,如果第一个事件有 mm 种可能性,第二个事情有 nn 种可能性。设p(i,j)p(i,j) 为事件ii和事件jj的联合概率。这一联合事件的熵为:
    H(x,y)=i,jp(i,j)  log  p(i,j)H(x,y) = -\sum_{i,j} p(i,j)\; log\; p(i,j)
    而:
    H(x)=i,jp(i,j)logjp(i,j)H(x) = -\sum_{i,j}p(i,j) log\sum_j p(i,j)
    H(y)=i,jp(i,j)logip(i,j)H(y) = -\sum_{i,j}p(i,j) log\sum_ip(i,j)
    容易证明:
    H(x,y)H(x)+H(y)H(x,y) \leq H(x) + H(y)
    当且仅当这些事件独立的时候 p(i,j)=p(i)(j)p(i,j) = p(i)\cdotp(j)时等号成立,一个联合事件的不确定性,小于等于各个事件的不确定性之和。

  可以理解为,当事件不独立的情况下,事件xx携带了事件yy中的部分信息,同时事件yy 中也携带了事件xx中的部分信息,两个事件携带的信息量有一部分重合,因此总的信息量小於单个信息量的累加

  • 性质 4:任何使得概率 p1,p2,...,pnp_1, p_2,...,p_n趋于相等的改变都会使HH增大。因此,如果p1<p2p_1 < p_2,而且我们使p1p_1增大,p2p_2减小一个相等量,则H增大。
  • 性质 5: 和性质3中一样,假定有两个随机事件 xx 和随机事件 yy,他们不一定相互独立。对于xx 可以取到的任意特定值ii,存在一个yy取值的jj的条件概率pi(j)p_i(j),此概率给出如下:
    pi(j)=p(i,j)jp(i,j)p_i(j)=\frac{p(i,j)}{\sum_{j}p(i,j)}
    我们将yy条件熵Hx(y)H_x(y)定义为关于每个值xx,yy的熵的加权平均,加权值为xx值的特定概率。即:
    Hx(y)=i,jp(i,j) log pi(j)H_x(y) = - \sum_{i,j}p(i,j)\ log\ p_i(j)
    用上述公式来度量,当我们已知事件xx的时候,事件yy的不确定性,可以得到:
    H(x,y)=H(x)+Hx(y)H(x,y) = H(x) + H_x(y)
  • 性质 6: 根据公式3和公式5可以得到:
    H(x)+H(y)H(x,y)=H(x)+Hx(y)H(x) + H(y) \geq H(x,y) = H(x) + H_x(y)
    因此:
    H(y)Hx(y)H(y) \geq H_x(y)

3 连续分布的熵

对于离散的概率集p1,p2,...,pnp_1,p_2,...,p_n的熵定义为:
H=pi log piH = -\sum p_i\ log\ p_i
对于一个概率密度函数分布为p(x)p(x)的连续分布,可以采用类似方式,将它的熵定义为:
H=p(x) log p(x) dxH=-\int_{-\infty}^{\infty} p(x)\ log\ p(x)\ dx
对于一个nn维的分布p(x1,x2,...,xn)p(x_1,x_2,...,x_n),有:
H=p(x1,...,xn) log p(x1,...,xn) dx1...dxnH = -\int\cdots\int p(x1,...,x_n)\ log\ p(x_1,...,x_n)\ dx_1...dx_n
如果有两个事件x,yx,y并且这两个事件本身可能是多维的,则p(x,y)p(x,y)的联合熵和条件熵分别为:
H(x,y)= p(x,y) log p(x,y) dx dyH(x,y) = - \int\int\ p(x,y)\ log\ p(x,y)\ dx\ dy
和:
Hx(y)= p(x,y) logp(x,y)p(x)dx dyH_x(y) = - \int\int\ p(x,y)\ log\frac{p(x,y)}{p(x)} dx\ dy
Hy(x)= p(x,y) logp(x,y)p(y)dx dyH_y(x) = - \int\int\ p(x,y)\ log\frac{p(x,y)}{p(y)} dx\ dy
其中:
p(x)=p(x,y) dy p(x) = \int p(x, y)\ dy
p(y)=p(x,y) dx p(y) = \int p(x,y)\ dx

5 参考内容

[1] 信息熵 维基百科
[2] 通信的数学理论

个人微信公众号:【查叔笔录】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章