【文末有福利】连续型随机变量及实例详解

如果随机变量X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点,那么称之为连续型随机变量。例如,一批电子元件的寿命、实际中常遇到的测量误差等都是连续型随机变量。

>>>>

连续型随机变量X无法像离散型随机变量一样,给出其取每一个点时的概率,那么换一种思路,来研究随机变量落入一个区间   的概率   ,当区间   接近无穷小时,这时我们使用概率密度来表示概率值。什么是概率密度?

假设有一组零件,由于各种因素的影响,其长度是各不相同的。具体数值如下。

[171.671,172.04,171.67,172.40,172.70,172.164,171.71,172.68,172.13,171.97,172.266,171.81,172.15,172.45,172.20,172.600,172.24,171.39,172.17,171.2]

按前面离散型随机变量的思路,要将数据分组,对应每个组计算出其相应的概率值,并绘制概率分布直方图,如下图所示。

连续型随机变量分组后的概率分布直方图

图中的横座标是随机变量值,纵座标是随机变量落入该值范围内的概率。直方图的边缘看起来有点粗糙,但当我们把样本数据和分组数同时增加时,轮廓就会越来越细致,接近于如图所示的曲线,这条曲线对应的函数就称为概率密度函数。由此思路,得到概率密度的数学描述如下。

考虑连续随机变量   落入区间区间   的概率,由概率分布函数    的定义可知   ,令   ,则设

   

如果该极限存在,则称   为在   点处的概率密度。

概率密度   反映出概率在   点处的密集程度,可以设想一根的质量不均匀的金属杆,总质量为1,概率密度相当于杆上各点处的质量密度。

根据导数的定义可知:

   

从上式中可得结论:若   在处连续,则概率密度函数   是分布函数   的导函数。

设   为连续型随机变量,   在任意区间(a,b]上的概率可以表示为:

   

其中   就叫作X的概率密度函数。

下图形象描绘出概率密度函数   和概率   之间的关系。概率   被看成曲线下的面积,用数学公式描述就是一个积分形式。

   

概率密度函数和概率P

连续型随机变量X的分布函数,也可写成:

   

概率密度函数和分布函数具有以下性质。

(1)非负函数:   。

(2)规范性:   。

(3)对于任何常数a<b,有:

   

假设某零件误差量在区间(-4,4)均匀分布,计算误差量为1~3的概率。

解:设随机抽取一个零件的误差量为X,随机变量X在区间(-4,4)上均匀分布,X落在该区间任意点的概率相同,即概率密度为一常量。

设   ,   ,即   

可得:概率密度函数   其他  

   在区间[1,3]之间的概率   。

下图中显示均匀分布对应的概率密度函数和分布函数。

均匀分布对应的概率密度函数和分布函数

在Python中输出正态分布概率密度函数和对应的概率分布函数。

解:如果一个随机变量X具有概率密度函数

   

则称随机变量X为正态分布随机变量,并记为   。

下面代码模拟实现了一个均值   为0和方差σ2为1的正态分布。

【代码如下】

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
def test_norm_pmf():
# 正态分布是一种连续分布,其函数可以在实线上的任何地方取值
# 正态分布由两个参数描述:分布的平均值μ和方差σ2 
mu = 0 # mean
sigma = 1#standard deviation
x = np.arange(-5,5,0.1)     #生成随机数x
#得到对应的概率值y
y = (1/(np.sqrt(2*np.pi*sigma*sigma)))*np.exp(-(((x-mu)**2)/(2*sigma*sigma)))
fig, (ax0, ax1) = plt.subplots(ncols=2, figsize=(10, 5))
ax0.plot(x, y)
ax1.plot(x,stats.norm.cdf(x,0,1))
ax0.set_title('Normal: $\mu$=%.1f, $\sigma^2$=%.1f' % (mu,sigma))
ax0.set_xlabel('x')
ax0.set_ylabel('Probability density', fontsize=15)
ax1.set_title('Normal: $\mu$=%.1f, $\sigma^2$=%.1f' % (mu, sigma))
ax1.set_xlabel('x')
ax1.set_ylabel('Cumulative density', fontsize=15)
fig.subplots_adjust(wspace=0.4)
plt.show()
test_norm_pmf()

【运行结果】

如下图所示。

正态分布对应的概率密度函数和分布函数

自然界中许多随机指标都服从一种“中间高,两头低”的概率特性。例如,一门课程的考试成绩,人的身高、体重等。

正态分布这种“钟形曲线”很好地反映了现实世界中的中间高、两头低的随机现象。

推荐阅读

《人工智能数学基础》


***粉丝福利时间***

评论区留言,点赞数前10可获得此书!!!

72个小时计!

注:若是在活动截止日期后24小时内无法取得用户回复或联系,将按照留言点赞排名顺延。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章