概率领域基本概念
概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。
离散型变量和连续型变量
进入主题前,先明确几个概念: 离散型变量(或取值个数有限的变量):取值可一一列举,且总数是确定的,如投骰子出现的点数(1点、2点、3点、4点、5点、6点)。 连续型变量(或取值个数无限的变量):取值无法一一列举,且总数是不确定的,如所有的自然数(0、1、2、3……)。
离散型变量取某个值xi的概率P(xi)是个确定的值,即P(xi)≠0:例如,投一次骰子出现2点的概率是P(2)=1/6。
连续型变量取某个值xi的概率P(xi)=0:对于连续型变量而言,“取某个具体值的概率”的说法是无意义的,因为取任何单个值的概率都等于0,**只能说“取值落在某个区间内的概率”,或“取值落在某个值邻域内的概率”,即只能说P(a<xi≤b),而不能说P(xi)。**为什么是这样?且看下例:例如,从所有自然数中任取一个数,问这个数等于5的概率是多少?从所有的自然数中取一个,当然是有可能取到5的,但是自然数有无穷多个,因此取到5的概率是1/∞,也就是0。
离散型变量
概率分布
概率分布:顾名思义,就是概率的分布,还是讲的"概率",不过侧重点在于"分布"。给出了所有取值及其对应的概率(少一个也不行),只对离散型变量有意义。描述离散型随机变量的概率分布的工具是概率分布表,如下:
概率分布,其实严格意义来说,应该叫做"离散型随机变量的值分布和概率分布". 名字虽长了一点,但有利于我们更好的理解。
概率函数
概率函数:顾名思义,用函数的形式来表达概率,一次只能代表一个随机变量的取值。函数表达: $$ p_{i}=P\left{X=x_{i}\right} \quad(i=1,2,3, \cdots) $$
概率分布函数F(x)
概率分布函数F(x):给出取值小于某个值的概率,是概率的累加形式,所以也叫也叫做累积概率函数。
·对于离散型变量: $$ F(x_i)=p(X<x_i)=\sum_{x_{k} < x_i} p_{k} $$
连续型变量
概率分布和概率函数只对离散型变量有意义,那如何描述连续型变量呢?
答案就是“概率分布函数F(x)”和“概率密度函数f(x)”,当然这两者也是可以描述离散型变量的。
概率分布函数F(x)
概率分布函数F(x):给出取值小于某个值的概率,是概率的累加形式,所以也叫也叫做累积概率函数。
·对于离散型变量: $$ F(x_i)=p(X<x_i)=\sum_{x_{k} < x_i} p_{k} $$ ·对于连续型变量,采用求积分的方式: $$ F(x_i)=P(X < x_i)=\int_{-\infty}^{x_i} f(x) dx $$
概率分布函数F(x)的作用:
(1)给出x落在某区间(a,b]内的概率: $$ P(a<X \leq b)=F(b)-F(a)=\int_{a}^{b} f(x) d x $$ (2)根据F(x)的斜率,即概率密度函数f(x)判断“区间概率”P(a<x≤b)(x落在(a,b]中的概率)。某区间(a,b]内,F(x)越倾斜,表示x落在该区间内的概率P(a<x≤b) 越大。
概率密度函数f(x):
离散变量的概率函数在连续型变量中就对应为概率密度函数,概率密度函数是分布函数的导函数。给出了变量落在$x_i$邻域内(或者某个区间内)的概率变化快慢,概率密度函数的值不是概率,而是概率的变化率,概率密度函数下面的面积才是概率。
注意: 概率密度函数f(x)在点a处取值,不是事件{X=a} 的概率。但是,该值越大,X在a点附近取值的概率越大.
物理含义:就是x落在a点附近的无穷小邻域内的概率,用数学语言描述就是: $$ f(a)=F^{\prime}(a)=P(a-\delta x<x \leq a+\delta x)_{\delta x \rightarrow 0} \neq P(a) $$
连续型变量的概率、概率分布函数、概率密度函数之间的关系
最常见的连续型概率分布是正态分布,也称为高斯分布。它的概率密度函数为: $$ f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} $$
x落在u附近的概率最大,而F(x)是概率的累加和,因此在u附近F(x)的递增变化最快,即F(x)曲线在(u,F(u))这一点的切线的斜率最大,这个斜率就等于f(u)。x落在a和b之间的概率为F(b)-F(a)(图中的红色小线段),而在概率密度曲线中则是f(x)与ab围成的面积S。
常见概率分布
离散分布
- 离散均匀分布: $X \sim U{1,2, \ldots, n}$
表示X在一次随机事件中可以取值1到n,并且每一个取值的概率相等,因此概率密度函数为 $f(k)=P(X=k)=\frac{1}{n}$ 。常见的抛掷色子等事件都服从该分布。
- 伯努利分布: $X \sim B(p)=B(1, p)$
在一次伯努利实验中,X的取值只有1(成功)或者0(失败)两种情况,成功的概率为p。
或者表述为事件A发生或不发生,A发生的概率为p,即概率密度函数为$f(x;p)=px(1−p)^{1−x}\quad for, x∈{0,1}$。例如商店下一位顾客的性别服从该分布。
- 二项分布: $X \sim B(n,p)$
二项分布可以看作是重复n次独立伯努利实验,得到成功X次的概率,单次伯努利实验成功的概率为p。
另外一种解释是有放回的抽样。比如,篮子里有N个球,只有红色和白色,其中p为红球的占比),进行n次有放回的抽取,n次抽取后抽到X个红球的概率服从二项分布。概率函数为:$f(k;p)=P(X=k)=\left(\begin{array}{c}n \ k\end{array}\right) p^{k}(1-p)^{n-k}$
连续分布
- 均匀分布: $X \sim U{a,b}$
在区间a到b上,任意一个点出现的概率相同,和离散均匀分布不同的是,区间a到b上可以取任何值。比如把区间换成面积,在飞镖投掷的游戏中,假设飞镖不会脱靶,则投掷飞镖到一块区域的概率服从均匀分布。其概率密度函数为:$f(x)= \begin{cases}\frac{1}{b-a} & a \leq x \leq b \ 0 & x<a, x>b\end{cases}$
- 指数分布: $X \sim \operatorname{Exp}(\lambda)(\lambda>0)$
指数分布的概率密度函数为 $f(x)=\lambda e^{-\lambda x}$ ,只有一个参数λ,其形状为一条递减的曲线,λ越大,曲线越陡峭,如下图所示。
- 正态分布: $X \sim N(\mu,\sigma)$
正态分布在生活中无处不在,人们的身高体重,智力水平都服从或者说近似服从正态分布。其概率密度函数为:$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}$
正态分布的神奇之处在于,所有分布在一定情况下都收敛于正态分布。也就是我们说的中心极限定理:假设 $X_1,...X_n$ 是独立同分布(independent and identically distributed),那么他们的和或者均值服从近似正态分布,并且随着n越来越大,越接近正态分布。中心极限定理也可以用公式来表示:$\sum_{i=1}^{n} X_{i} \approx N\left(n \mu, n \sigma^{2}\right)$
未整理
置信区间详解
置信区间,提供了一种区间估计的方法。
下面采用 置信区间来构造区间估计
按照 置信区间构造出来的区间,如果我构造出100个这样的区间,其中大约有95个会包含
这就好像用渔网捞鱼,我知道一百次网下去,可能会有95次网到我想要的鱼,但是我并不知道是不是现在这一网:
你得出的置信区间就像一张大网,而你要推断的真值是海里的一条鱼(不动的鱼),你的网可以撒向任何地方,有可能能捕捉到那条鱼,有可能一无所获。95%是用来描述你捕获真值的概率的,你撒100次网,有95次捕到了真值,5次一无所获。
剩下的问题就是 置信区间是如何构造的。
假设人群的身高服从:$X \sim N(\mu,\sigma)$
答案1
置信区间,就是一种区间估计。
先来看看什么是点估计,什么是区间估计。
1 点估计与区间估计
以前很流行一种刮刮卡:
游戏规则是(假设只有一个大奖):
- 大奖事先就固定好了,一定印在某一张刮刮卡上
- 买了刮刮卡之后,刮开就知道自己是否中奖
那么我们起码有两种策略来刮奖:
- 点估计:买一张,这就相当于你猜测这一张会中奖
- 区间估计:买一盒,这就相当于你猜测这一盒里面会有某一张中奖
很显然区间估计的命中率会更高(当然费用会更高,因为风险降低了)。
接下来,我们看看置信区间是如何进行区间估计的。
2 置信区间
我们通过对人类身高的估计来讲解什么是置信区间。
2.1 上帝视角
对于人类真实的平均身高,我们是没有办法知道的,因为几乎不可能把每个人都统计到。
但这个数据肯定是真实存在的,我们可以说,上帝知道。
在这里我们引入了上帝视角,即上帝看到的人类身高的真实分布。
假设人类的身高分布服从如下正态分布( ):
也就是说全体人类的平均身高为145cm,为了表示只有上帝可以看到,我把真实分布用虚线来表示:
2.2 点估计
作为愚蠢的人类,我们只能在人群中抽样统计:
比如下面是一次抽样数据,我把算出来的样本均值(记作 )画在图上(蓝色的点):
就是对真实的 的一次点估计。
通过一次次的抽样,我们可以算出不同的身高均值的点估计:
如果我们关闭上帝视角,我们分辨不出哪个点估计更好:
区间估计可以改进此问题。
2.3 置信区间
置信区间,提供了一种区间估计的方法。
下面采用 置信区间来构造区间估计(什么是 置信区间,这个我们后面解释):
通过 置信区间构造出来的区间,我们可以看到,基本上都包含了真实的 ,除了红色的那根。
关闭上帝视角,我们仍然不知道哪一个区间估计更好:
但是,和点估计比较:
- 点估计和区间估计,都不知道哪个点或者哪个区间更好
- 但是,按照 置信区间构造出来的区间,如果我构造出100个这样的区间,其中大约有95个会包含
这就好像用渔网捞鱼,我知道一百次网下去,可能会有95次网到我想要的鱼,但是我并不知道是不是现在这一网:
剩下的问题就是 置信区间是如何构造的。
3 置信区间
假设人群的身高服从:
其中 未知, 已知。
我们不断对人群进行采样,样本的大小为 ,样本的均值:
根据大数定律和中心极限定律, 服从:
我们可以算出以 为中心,面积为0.95的区间,如下图:
即:
也就是, 有 的机率落入此区间:
我们以 为半径做区间,就构造出了 置信区间。按这样去构造的100个区间,其中大约会有95个会包含 :
那么,只有一个问题了,我们不知道、并且永远都不会知道真实的 是多少。
我们就只有用 来代替 :
4 总结
总结一下:
- 置信区间要求估计量是个常数
- 也被称为置信水平,是统计中的一个习惯,可以根据应用进行调整
答案2
[
陈鹏](https://www.zhihu.com/people/chen-peng-95-54)
专门倒腾数据
236 人赞同了该回答
用于理解的话你可以这样想: 你得出的置信区间就像一张大网,而你要推断的真值是海里的一条鱼(不动的鱼),你的网可以撒向任何地方,有可能能捕捉到那条鱼,有可能一无所获。95%是用来描述你捕获真值的概率的,你撒100次网,有95次捕到了真值,5次一无所获。 引用一下Gudmud R .Iverson的《统计学-基本概念和方法》p157关于置信水平的小结: “置信水平为95%的意思是多次抽样中有95%的置信区间包含未知的参数值而另外的5%则不包含真值。至于在一次抽样得到的置信区间是包含总体参数的众多区间中的一员呢,还是属于个别不包含参数值的区间就不得而知了” 这就是统计学的魅力,虽然我不知道真值是否在区间中,但是我有95%的把握它在里面。 最后希望这个回答对你有用。