概率分布理解

多种概率分布总结

一. 离散概率分布

1. 两点分布(伯努利分布、0-1分布)

  • 两点分布也称为0-1分布、伯努利分布,随机变量只取0或1,如一次抛硬币实验的正反面。概率质量函数:

P(X=x)=\begin{cases} { p }^{ x }{ (1-p) }^{ 1-x }\quad for\quad x=0\quad or\quad 1 \\ 0\quad \quad \quad \quad \quad \quad otherwise \end{cases}

  • 期望、方差

E(X) =p,\quad Var(X) = p(1-p)

  • 交叉熵损失函数的样本假设是两点分布

2. 二项分布

  • 二项分布是进行n次独立实验,每次实验都是一次两点分布,随机变量X表示n次实验成功次数。概率质量函数:

P(X=k)=\begin{cases} { C }_{ n }^{ k }{ p }^{ k }{ (1-p) }^{ n-k }\quad for\quad k=0,1,...,n \\ 0\quad \quad \quad \quad \quad \quad \quad \ otherwise \end{cases}

  • 期望、方差

E(X)=np,\quad Var(X)=np(1-p)

3. 几何分布

  • 几何分布也是进行多次独立两点实验,随机变量X表示第一次成功所进行实验的次数。概率质量函数:

P(X=k)=\begin{cases} p{ (1-p) }^{ k-1 }\quad for\quad k=1,2,3... \\ 0\quad \quad \quad \quad \quad \ otherwise \end{cases}

  • 期望、方差

E(X)={ 1 }/{ p },\quad Var(X)={ (1-p) }/{ { p }^{ 2 } }

4. 负二项分布

  • 负二项分布是几何分布的一般形式,随机变量X表示直到成功r次所进行实验的次数。概率质量函数:

P(X=k)=\begin{cases} { C }_{ k-1 }^{ r-1 }{ p }^{ r }{ (1-p) }^{ k-r }\quad for\quad k=1,2,3... \\ 0\quad \quad \quad \quad \quad \quad \quad \quad otherwise \end{cases}

  • 期望、方差

E(X)={ r(1-p) }/{ p },\quad Var(X)=r(1-p)/{ p }^{ 2 }

5. 超几何分布

  • 随机变量X表示(在N个物品中有指定物品M个)不放回抽取n次,抽中指定物品的个数。概率质量函数:

P(X=k)=\begin{cases} \frac { { C }_{ M }^{ k }{ C }_{ N-M }^{ n-k } }{ { C }_{ N }^{ n } } \quad 0\le k\le M \\ 0\quad \quad \quad \quad otherwise \end{cases}

  • 期望、方差

E(X)={ nM }/{ N },\quad Var(X)=n\frac { M }{ N } \frac { (N-M) }{ N } \frac { (N-n) }{ N-1 }

6. 泊松分布

  • 泊松分布适合于描述单位时间内随机事件发生次数的概率分布。概率质量函数:

P(X=k)=\frac { { e }^{ -\lambda }{ \lambda }^{ k } }{ k! }

参数λ是单位时间(或单位面积)内随机事件的平均发生率。

  • 期望、方差

E(X)=Var(X)=\lambda

  • 在二项分布的伯努利试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= np比较适中,则事件出现的次数的概率可以用泊松分布来逼近。https://zh.wikipedia.org/wiki/泊松分布
  • λ大概等于20时,泊松分布基本可以近似为正态分布进行处理

二. 连续概率分布

1. 均匀分布(矩形分布)

  • 均匀分布是对称概率分布,在相同长度间隔的分布概率是等可能的。概率密度函数:

f(x)=\frac { 1 }{ b-a } \quad a\le x\le b

均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值。

  • 期望、方差

E(X)=\frac { a+b }{ 2 } ,\quad Var(X)=\frac { { (b-a) }^{ 2 } }{ 12 }

2. 正态分布(高斯分布)

  • 如果一个指标并非受到某一个因素的决定作用,而是受到综合因素的影响,那么这个指标分布呈正态分布。概率密度函数:

g(x)=\begin{cases} \frac { 1 }{ \sigma \sqrt { 2\pi } } { e }^{ { \frac { { -{ (x-\mu ) }^{ 2 } } }{ 2{ \sigma }^{ 2 } } } }\quad x\ge 0 \\ 0\quad \quad \quad\ \quad \quad otherwise \end{cases}

if\quad X\sim N(\mu ,{ \sigma }^{ 2 }),\quad then\quad Z=\frac { x-\mu }{ \sigma } \sim N(0,1)

  • 期望、方差

E(X)=\mu ,\quad Var(X)={ \sigma }^{ 2 }

  • 最小二乘法假设(y - θx)误差项符合正态分布
  • MSE损失函数的样本假设是正态分布
  • L2正则假设参数θ符合正态分布

3. 指数分布

  • 指数分布用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔等等。概率密度函数:

f(x;\lambda )=\begin{cases} \lambda { e }^{ -\lambda x }\quad x\ge 0 \\ 0\quad \quad \quad x<0 \end{cases}

其中λ > 0是分布的一个参数,常被称为率参数。即每单位时间发生该事件的次数。

  • 期望、方差

E(X)={ 1 }/{ \lambda },\quad Var(X)=1/{ \lambda }^{ 2 }

4. Gamma分布

  • Gamma分布用来表示n个独立随机事件都发生的时间间隔。概率密度函数:

f(x)=\frac { { x }^{ (\alpha -1) }{ \lambda }^{ \alpha }{ e }^{ (-\lambda x) } }{ \Gamma (\alpha ) } \quad x>0

α为随机事件发生次数,λ为单位时间事件发生的次数,β=1/λ。

\Gamma (\alpha )=(\alpha -1)!

\Gamma (\alpha )=\int _{ 0 }^{ \infty }{ { x }^{ \alpha -1 }{ e }^{ -x } } dx

  • 期望、方差

E(X)=\frac { \alpha }{ \lambda } ,\quad Var(X)=\frac { \alpha }{ { \lambda }^{ 2 } }

5. Beta分布

  • Beta分布是概率的概率,它给出了概率出现的可能性大小。概率密度函数:

f(x;\alpha ,\beta )=\frac { 1 }{ B(\alpha ,\beta ) } { x }^{ \alpha -1 }{ (1-x) }^{ \beta -1 }\quad x\ge 0\\

B(\alpha ,\beta )=\frac { \Gamma (\alpha )\Gamma (\beta ) }{ \Gamma (\alpha +\beta ) }

其中λ > 0是分布的一个参数,常被称为率参数。即每单位时间发生该事件的次数。α为事件发生的次数,β为不发生的次数。

  • 期望、方差

E(X)=\frac { \alpha }{ \alpha +\beta } ,\quad Var(X)=\frac { \alpha \beta }{ { (\alpha +\beta ) }^{ 2 }(\alpha +\beta +1) }

  • Thompson sampling使用Beta分布预估“臂”的可能性

6. 拉普拉斯分布

  • 拉普拉斯分布可以看作是两个不同位置的指数分布背靠背拼接在一起。概率密度函数:

f(x;\mu ,b)=\frac { 1 }{ 2b } { e }^{ -\frac { |x-\mu | }{ b } }

  • 期望、方差

E(X)=\mu ,\quad Var(X)=2{ b }^{ 2 }

  • L1正则假设参数θ符合Laplace分布

参考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章