为什么在很多应用中常采用正态分布/高斯分布、中心极限定理

为什么在很多应用中常采用正态分布/高斯分布?

当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎么样的形式时,正态分布是默认的比较好的选择,有两个原因:
一,我们想要建模的很多分布的真实情况是比较接近正态分布的。 中心极限定理说明很多独立随机变量的和近似服从正态分布。
二,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。 因此,我们可以认为正态分布是对模型加入的先验知识量最少的分布

补充中心极限定理:

客观背景:在实际中有许多随机变量,它们是由大量的相互独立的随机因素的综合影响所形成的,而其中每一个别因素在总的影响中所起的作用都是微小的,这种随机变量往往近似服从正态分布。
这一事实,表明了正态分布的重要性,及为什么实际应用中会常遇到正态分布。另一方面,它提供了独立同分布随机变量之和的近似分布,只要和式中加项的个数充分大,就可以不必考虑和式中的随机变量服从什么分布,都可以采用正态分布来近似。

常见的三个中心极限定理:
A、独立同分布的中心极限定理:加了同分布
相互独立同分布的随机变量(Xi)之和:随机变量(Z),Z服从正态分布。Xi可以服从正态分布,也可以服从二项分布,等等。
相互独立同分布的随机变量(Xi,i=1,2,…)之和即大量相互独立的随机因素;
随机变量X即综合影响。
B、李雅普诺夫中心极限定理:
无论各个随机变量Xi(i=1,2,…,n)服从什么分布,它们的和 当n很大时,Z就近似服从正态分布。
这就是为什么实际应用中为什么经常遇到正态分布的一个重要原因,说明了正态分布的重要性。因为,在很多问题中,所考虑的随机变量可以表示成很多个独立的随机变量之和。即中心极限定理说明独立随机变量的和近似服从正态分布(要求加项的个数充分大)。
Eg,在任意时刻,一个城市的用电量是大量用户用电量的总和;一个物理实验的测量误差是许多观察不到的、可加的微小误差所合成的,这个测量误差往往近似服从正态分布。

三个要素:
变量Xi:
随机、
相互独立
相加(综合/总的)
随机变量Xi之和Z:Z=X1+X2+X3+… X~正态分布。

C、棣(di)莫弗-拉普拉斯中心极限定理(A的特殊情况):
要求各个相互独立的随机变量Xi服从二项分布。该定理说明了正态分布是二项分布的极限分布。


这篇博文特别生动形象,推荐:
https://www.matongxue.com/madocs/589.html
数学研究者认为正态分布是一个经验公式
文章里用高尔顿钉板装置,生动展示了正态分布的产生过程:
弹珠往下滚时,撞到钉子就会随机选择往左走还是往右走;
一颗弹珠一路滚下来会多次选择方向(很多颗钉子),所有弹珠掉下去后最终的分布神奇地接近正态分布的图形。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章