最近在看深度学习的理论,主要参考的是深度学习花书的内容,附带一些顶会和期刊的论文,对于自己学习过程中产生的一些疑惑,我力图做到真正理解,而真正理解最好的方式就是给别人讲明白。所以我会在文章中将我遇到的困惑的解答写出来,我想也许也有人会遇到我的这些困惑,独乐了不如众乐乐哈哈,如果有什么纰漏欢迎批评指正!
注明我没按照知识体系写,有的东西很重要,但是我看起来没啥疑惑,我就在文章中忽略了
随机变量函数f(x)的分布与随机变量x之间的关系
在花书中,稍微介绍了一点测度论,说到测度论是介绍概率上存在一些悖论的问题,但是我们实际遇到的大部分概率内容不会碰到这类问题。让我产生困惑的一点是连续型随机变量函数概率分布与随机变量的概率分布之间的关系。
举一个书中的例子:
随机变量连续可微,随机变量X服从0-1的均匀分布,随机变量Y是X的函数,关系如下:
那么Y服从什么分布呢?
这是概率论中很基础的问题,所有讲授概率论的书中都会讲,但是我看花书的时候我忘记了,尴尬!
但是这个问题很重要,几乎实际遇到的所有问题,往往我们测量的是一个随机变量,使用的是另外一个随机变量,使用的随机变量分布是从测量随机变量分布的某种函数关系得到的。
书中介绍了一种错误的做法,就是直接利用反函数,将Y带入到X的概率分布中。这种方法为什么是错的呢?
因为函数对x的作用会导致y的空间的伸缩,因此需要在x的分布函数基础上乘以相应的伸缩因子,本例中使用的函数的伸缩因子是常数,实际上如果函数比较复杂也可以是含y的变化因子。
二者之间的限制在于任何概率分布必须满足在整个空间积分为1,如下式一元情况:
如果已知观测随机变量分布X求随机变量Y的分布,利用如下式—多元情况:
或者由Y求X:
信息论
书中这部分讲信息论,核心的观点是一件事情发生的法律越低,带来的信息量越大,因为概率是0-1之间的数字,如果使用对数作用,越小的概率,对应的信息量就越大,这样就可以量化的描述一件事情的信息量
自信息
自信息反映的是单一事件发生所带来的信息量。
香浓熵
但是随机变量一般满足一个分布,使用香浓熵可以表示一个随机变量在分布上的自信息期望
离散形式如下:
也即变量X在分布上产生信息的总量,因此可以认为一个分布的香浓熵越大,这个分布产生的信息量越大。分布的香浓熵只跟概率分布的本身有关,对数的底数跟应用本身有关,可根据具体需求选取,信息学通常使用2为基底,自然科学工程上更多选用e为基底。
KL散度
如果随机变量X独立满足两个分布P(X)和Q(X),可以使用KL散度来量化区别这两个分布的区别
KL散度不具有对称性,具有非负性。KL散度衡量两个分布之间的差异,可以被看做是两个分布的一种”距离“。
上式中H(P,Q)叫做交叉熵,指X在满足P的分布情况下,在Q分布上的不确定性,如果Q跟P相同,此时的交叉熵最小。
这个量非常有意义,我们假设训练样本满足的是P分布,我们当然希望训练出来的模型满足Q分布,如何让训练的模型尽可能的贴近P分布呢?
可以使用优化算法,不断逼近P的分布,降低交叉熵的值。Q越接近P分布,交叉熵越小。