为了更好的理解交叉熵的意义,先介绍一下相对熵的概念
1、相对熵
-
基本概念
相对熵又称为KL散度(Kullback–Leibler divergence),用来描述两个概率分布的差异性。假设有对同一变量x的q(x)和p(x)两个概率分布,那么两者之间的相对熵可由以下定义:
DKL(p∥q)=i=1∑Np(xi)log(q(xi)p(xi))
对于实际应用,p(x)是目标分布,q(x)是预测的匹配分布。
-
理解相对熵(参考)
因为p(x)是目标分布,所以用p来表示该事件是最好的。但是现在用了q(x),多了一些不确定性因素,这个增加的信息量就是相对熵。
-
性质
相对熵有一个性质:两个分布差异越大,KL散度越大。实际应用需要两个分布尽可能的相等,于是就需要KL散度尽可能的小。
-
相对熵的非负性
根据Jensen不等式,当f是一个凸函数时,满足以下函数:
f(θ1x1+…+θnxn)≤θ1f(x1)+…+θnf(xn),0≤θi≤1,θ1+…+θn=1
对照相对熵的表达式,这里做几个映射关系:
Jensen不等式 |
相对熵 |
θi |
p(xi) |
xi |
p(xi)q(xi) |
f() |
−log() |
根据上表中的关系得到下式:
DKL(p∥q)=i=1∑Np(xi)log(q(xi)p(xi))=i=1∑Np(xi)⋅−log(p(xi)q(xi))≥−log(i=1∑Np(xi)⋅p(xi)q(xi))=0
显然,只有当q(x)=p(x)时,才有最小值。
- 与交叉熵的关系
DKL(p∥q)=i=1∑Np(xi)log(q(xi)p(xi))=i=1∑Np(xi)logp(xi)−i=1∑Np(xi)logq(xi)=−H(p)+H(p,q)
上式中的H(p,q),而当一个目标事件确定后,H(p)便为一个常数,所以最小化相对熵的问题化简成了计算H(p,q)的最小值。
2、交叉熵
- 简单概念
交叉熵是信息熵论中的概念,它原本是用来估算平均编码长度的。在深度学习中,可以看作通过概率分布q(x)表示概率分布p(x)的困难程度。其表达式为:
H(p,q)=i=1∑np(xi)logq(xi)1=−i=1∑np(xi)logq(xi)
- 简单性质
交叉熵刻画的是两个概率分布的距离,也就是说交叉熵值越小(相对熵的值越小),两个概率分布越接近(该说法需要证明)。
下面将给出两个具体样例来直观地说明通过交叉熵可以判断预测答案和真实答案之间的距离。假设有个三分类问题,某个正确答案和一个经过softmax回归后的预测答案如下:
|
x1 |
x2 |
x3 |
p(xi) |
1 |
0 |
0 |
q1(xi) |
0.5 |
0.4 |
0.1 |
q2(xi) |
0.8 |
0.1 |
0.1 |
那么p(x)与q1(x)的交叉熵为:
H((1,0,0),(0.5,0.4,0.1))=−(1×log0.5+0×log0.4+0×log0.1)≈0.3
p(x)与q2(x)的交叉熵为:
H((1,0,0),(0.8,0.1,0.1))=−(1×log0.8+0×log0.1+0×log0.1)≈0.1
从直观上可以看到第二个预测的结果要优于第一个,并且通过计算交叉熵,结果也是一致的。
cross_entropy = -tf.reduce_mean( y_ * tf.log(tf.clip.by_value(y, 1e-10, 1.0)))
其中y_代表正确结果,y代表预测结果。
3、Logistic回归风险函数与交叉熵
在Logistic回归任务中,常见的输出定义为:
y=σ(wTx+b), where σ(z)=1+e−z1
定义y=1的例子的后验概率为
P(y=1∣x)=y=σ(wTx+b)
以及y=0的例子的后验概率为
P(y=0∣x)=1−y=1−σ(wTx+b)
那么可以定义后验概率P(y∣x)如下:
P(y∣x)=yy(1−y)(1−y)
回归的目标应为该后验概率越大越好,根据最大似然估计,在所有样本满足独立同分布的情况下,可以确定一组参数使得上述概率最大。
因为log函数是单调递增函数,所以求上述函数的最大化,等价于求log(P(y∣x))的最大化。
对上述概率对数化可得:
log(P(y∣x))=ylog(y)+(1−y)log(1−y)
即逻辑回归的目标是最大化上述函数。对于代价函数来说,一般都是最小化函数,所以可以增加一个负号。那么,对于m个样本来说,代价函数即为交叉熵函数:
J(w,b)=−i=1∑m(ylogy+(1−y)log(1−y))