概率与统计,参数估计(部分)

随机变量分类

  • 离散型随机变量
  • 连续型随机变量

随机变量的矩:
X是一个随机变量对于任何正整数n,定义
E(Xn)=p(x)xndxE(X^n)=\int p(x)x^ndx

  • 一阶矩:n=1,E(X)期望(原点矩)
  • 二阶矩:n=2,E(X2)E(X)2E(X^2)-E(X)^2方差 (中心矩)

特征函数:
ϕX(t)=E(eitX)\phi_X(t)=E(e^{itX})=n=0E(Xn)n!(it)n\sum_{n=0}^{∞}\frac{E(X^n)}{n!} (it)^n

在这里插入图片描述
更多关于特征函数
协方差:(多个随机变量之间的关系)
X,Y为两个独立随机变量,协方差为0
Exy=yxxypxydxdy=ypyxp(x)dxdy=yp(y)E(x)dy=E(x)yp(y)dy=E(x)E(y) { E(x,y)=∫_y∫_xxyp(x,y)dxdy = ∫yp(y)∫xp(x)dxdy = ∫yp(y)E(x)dy =E(x) ∫yp(y)dy =E(x)E(y) }

cov(x,y)=E(xy)E(x)E(y)=0 { cov(x,y) = E(xy)-E(x)E(y) = 0}

x,y的相关系数(夹角cosα)
covxy/varxvary {cov(x,y)/\sqrt{var(x)var(y)}}

概率分布与特征函数的关系:
对于任何X,ϕx(t)\phi_x(t)都存在
ϕ(0)=E(e0)=1,ϕ(t)1t\phi(0)=E(e^0)=1,且\mid\phi(t)\mid\leq1,\forall t
ϕ(t)\phi(t)是一致连续函数
ϕX(t)=ϕX(t),XϕX(t)\phi_X(t)=\phi_-X(t),所以如果X关于中心对称,那么\phi_X(t)就是一个实函数
XnϕX(t)nE(Xn)=(i)nϕ(n)(0)如果X的n阶矩存在,那么\phi_X(t)至少n阶可微,并且E(X^n)=(-i)^n\phi^{(n)}(0)
XYϕX+Y(t)=ϕX(t)ϕY(t)如果X,Y是两个独立随机变量,那么\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t)
ϕX(t)=ϕY(t),XY如果\phi_X(t)=\phi_Y(t),那么X,Y服从同一个分布
Xnϕxn(t)ϕ(t),ϕ(t)0X(t),使XnX(t)如果{X_n}是一个随机变量序列,而且\phi_{x_n}(t)逐点收敛于一个函数\phi_∞(t),如果\phi_∞(t)在0处连续,那么存在一个分布X_∞(t),使得X_n按分布收敛于X_∞(t)

特殊分布的特征函数:
p(a)=1,ϕ(t)=eiat独点分布p(a)=1,\phi(t)=e^{iat}
p(1)=p(1)=1/2,ϕ(t)=cos(t)两点分布p(-1)=p(1)=1/2,\phi(t)=cos(t)
f(x)=12Πex22,ϕ(t)=et22正态分布,概率密度函数f(x)=\frac{1}{\sqrt{2}Π}e^{-\frac{x^2}{2}},\phi(t)=e^{-\frac{t^2}{2}}
p(n)=eλλnn!ϕ(t)=eλ(1eit)泊松分布p(n)=e^{-\lambda}\frac{\lambda^n}{n!},\phi(t)=e^{-\lambda(1-e^{it})}

重要极限:
limn(1+1/n)ne=limn(1+1/n)nex=limn(1+x/n)nlimn(1+x/n)n=limn[(1+x/n)n/x]x=limn[(1+1/m)m]x=ex {lim_{n\to\infty} (1+1/n)^n }存在,且定义e = lim_{n\to\infty} (1+1/n)^n,于是定义e^x = lim_{n\to\infty} (1+x/n)^n, lim_{n\to\infty} (1+x/n)^n = lim_{n\to\infty} [(1+x/n)^{n/x}]^x = lim_{n\to\infty} [(1+1/m)^m]^x = e^x

大数定律:

平均值收敛于期望

X是随机变量,μ是X的期望,σ\sigma是X的方差,{Xk}k=1\{X_k\}_{k=1}^{∞}

是服从X的独立同分布随机变量,那么Xn=k=1nXkn\overline{X}_n=\frac{\sum_{k=1}^{n}X_k}{n}依概率收敛于μ。也就是说对于任何ε\varepsilon>0有
limxP(Xnμ>ε)=0 \lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0
因为X具有一阶矩,所以特征函数ϕX(t)ϕX(t)=1+iμt+o(t)\phi_X(t)存在一阶泰勒展开\phi_X(t)=1+iμt+o(t),于是
ϕX(t)=E(exp(iti=1nxin))=i=1nE(exp(itX/n))=(1+iμt/n+o(t/n)n) \phi_{\overline{X}}(t)=E(exp(it\frac{\sum_{i=1}^{n}x_i}{n}))=\prod_{i=1}^{n}E(exp(itX/n))=(1+iμt/n+o(t/n)^n)
于是
limnϕX(t)=limn(1+iμt/n+o(t/n))n \lim_{n\to\infty}\phi_{\overline{X}}(t)=\lim_{n\to\infty}(1+iμt/n+o(t/n))^n
这就是独点分布的特征函数,所以X\overline{X}按分布收敛于独点分布。
收敛于一个常数,因为limxP(Xnμ>ε)=0 \lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0
X\overline{X}收敛于一个常数,所以X\overline{X}=μ,也就是验证了
平均值收敛于期望值

中心极限定理:

X是随机变量,ϕ(X)\phi(X)是X的特征函数,{Xk}k=1\{X_k\}_{k=1}^{∞}

是服从X的独立同分布随机变量,那么
服从正态分布
zn=xσ(xnμ) z_n = \frac{\sqrt{x}}{\sigma}(\overline{x_n} μ)
依分布收敛于正态分布N(0,1)
也就是说对于任何ε\varepsilon>0有
limnP(Znz)=Φ(z),z \lim_{n\to\infty}P(Z_n<z)=\Phi(z),\forall z
其中Φ\Phi是标准正态分布的分布函数。

x的二阶泰勒展开式
ϕxt=1+iμtσ2t2+o(t2) {\phi x(t) = 1 + iμt - \frac{{\sigma}}{2} t^2 + o(t^2) }
Y=xμ)/σ 令 Y = (x-μ)/\sigma
EY=E[xμσ]=1σE(xμ)=1σ(E(X)μ=0 {E(Y)= E[\frac{{x-μ}}{\sigma}] =\frac{{1}}{\sigma}E(x-μ) = \frac{{1}}{\sigma}(E(X)-μ} =0
E(Y2)=E(xμσ)2=1σ2[E(X2)2μE(x)+μ2]=1σ2[E(X2)μ2]=1σ2σ2=1 {E(Y^2) = E(\frac{{x-μ}}{\sigma})^2 =\frac{{1}}{\sigma^2}[E(X^2) -2μE(x)+μ^2]= \frac{{1}}{\sigma^2}[E(X^2)-μ^2]}= \frac{{1}}{\sigma^2}\sigma^2=1
则,E(Y)=0,E(Y2)=1,E(Y)=0,E(Y^2)=1,于是有
ϕY(t)=112t2+o(t2) \phi_Y(t)=1- \frac{1}{2}t^2+o(t^2)
因为Zn=nYZ_n = {\sqrt{n}}\overline{Y},所以
ϕZn(t)=E(exp(iti=1nYi/n))=(112nt2+o(t2/n))n \phi_{Z_n(t)}=E(exp(it\sum_{i=1}^{n}Y_i/\sqrt{n}))=(1-\frac{1}{2n}t^2+o(t^2/n))^n
Zn=ni=1nYi,1nYi,ϕY(t)tt/nZnZ_n =\sqrt{n}\sum_{i=1}^{n}Y_i,最后就是\frac{1}{\sqrt{n}}Y_i,把\phi_Y(t) 的t换成t/\sqrt{n}就是Z_n的函数方程
于是
limnϕzn(t)=limn(1t22n+o(t2/n))n=e12t2 \lim_{n\to\infty}\phi_{z_n}(t)=\lim_{n\to\infty}(1- \frac{t^2}{2n}+o(t^2/n))^n=e^{-\frac{1}{2}t^2}
是一个正态分布的特征函数,所以ZnZ_n按分布收敛于正态分布。

参数估计

  • 点估计
    矩估计
    极大似然估计
  • 区间估计

点估计性质:

相合性

:当样本数量趋于无穷时,估计量收敛于参数真实值。
例:当我们求解参数 θ\theta的方程时,为什么最大值就是参数的值?
θ0\theta_0,求极大值,就是要证明θ0\theta_0就是极大值。
最大化参数函数方程lx(θ)l_x(\theta),也就是最大化1nlx(θ){ \frac{1}{n}l_x(\theta)}是一样的。
1nlx(θ)=1ni=1nlxiθ=1ni=1nln(fθ(xi)) {{ \frac{1}{n}l_x(\theta)}=\frac{1}{n}\sum_{i=1}^{n}l_{x_i}(\theta)= \frac{1}{n}\sum_{i=1}^{n}l_n(f_\theta(x_i))}
这个无穷求和就收敛于期望(大数定律)
Eln(fθ(x))=xln(fθ(x))fθ0(x)dx E(l_n(f_\theta(x)))=∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx
fθ(x)fθ0(x) f_\theta(x)是一个函数,f_{\theta_0}(x)是个值
θ^\hat{\theta}1nlx(θ)\frac{1}{n}l_x(\theta)的极大值点,所以limθ^Eln(fθ(x))lim\hat{\theta}收敛于 E(l_n(f_\theta(x)))的极大值点
所以我们只需要证明θ0\theta_0确定是Eln(fθ(x))E(l_n(f_\theta(x)))的极大值点,因为ln(x)l_n(x)是个凹函数,根据琴生不等式我们有:
xln(fθ(x))fθ0(x)dxxln(fθ0(x))fθ0(x)dx=xln(fθ(x)/fθ0(x))fθ0(x)dxln(xfθ(x)fθ0(x)fθ0(x)dx)=ln(xfθ(x)dx)=ln(1)=0 {∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx-∫_xl_n(f_{\theta_0}(x))f_{\theta_0} (x)dx}=∫_xl_n(f_\theta(x)/f{\theta_0}(x))f_{\theta_0}(x)dx \leq l_n(∫_x \frac{f_\theta(x)}{f_{\theta_0}(x)}f_{\theta_0}(x)dx)=ln(∫_xf_\theta(x)dx)=ln(1)=0
所以:Eln(fθ(x))Eln(fθ0(x))0E(l_n(f_\theta(x)))-E(l_n(f_{\theta_0}(x)))\leq 0
θ0Eln(fθ(x))\theta_0就是E(l_n(f_\theta(x))的极大值点

所以求解参数方程的极大值就是求参数的真实值。

无偏性

:对于有限的样本,估计量所符合的分布之期望等于参数真实值。
例:方差的估计:
E1ni=1n(xix)2=E(1ni=1n(xiμ+μx)2)=E1ni=1n(xiμ2)E((μx)2)=E((xiμ)2)E((μx)2)=σ2var((x))σ2 E( \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2)=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ+μ-\overline{x})^2)=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)-E((μ-\overline{x})^2)=E((x_i-μ)^2)-E((μ-\overline{x})^2)=\sigma^2 -var((\overline{x}))\leq\sigma^2
E((xiμ)2)=E(xi22μxi+μ2)=E(xi2)2μE(xi)+μ2=E(x)2μ2=σ2 E((x_i-μ)^2) = E(x_i^2-2μx_i +μ^2)=E(x_i^2)-2μE(x_i)+μ^2=E(x)^2-μ2=\sigma^2
E(1ni=1n(xiμ+μx)2n)=i=1n(xiμ)2n+i=1n(μx)2n+i=1n2(xiμ)(μx)n=E(1ni=1n(xiμ)2)+E((μx)2)+(2E(μx)2) E( \frac{1}{n}\sum_{i=1}^{n}\frac{(x_i-μ+μ-\overline{x})^2}{n})=\sum_{i=1}^{n}\frac{(x_i-μ)^2}{n}+\sum_{i=1}^{n}\frac{(μ-\overline{x})^2}{n}+\sum_{i=1}^{n}\frac{2(x_i-μ)(μ-\overline{x})}{n}= E(\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)+E((μ-\overline{x})^2)+(-2E(μ-\overline{x})^2)
E(2(μx)i=1n((xiμ)n)=E(2(μx)(xμ))=2E(μx)2 E(2(μ-\overline{x})\sum_{i=1}^{n}( \frac{(x_i-μ)}{n})=E(2(μ-\overline{x})(\overline{x}-μ))=-2E(μ-\overline{x})^2
所以我们倾向于低估σ2\sigma^2,那么我们低估的这个值var((x))var((\overline{x}))等于多少?

Yi=XiμY_i=X_i-μ,那么xμ=Y\overline{x}-μ=\overline{Y},所以E((μx)2)=E((Y)2)E((μ-\overline{x})^2)=E((\overline{Y})^2)
Y的特征函数是
ϕY(t)=exp(t2σ22) \phi _Y(t)=exp(\frac{-t^2\sigma^2}{2})
所以
ϕY(t)=(exp(t2σ22n2))n=exp(t2(σ/n)22) \phi _{\overline{Y}}(t)=(exp( \frac{-t^2\sigma^2}{2n^2}))^n=exp( \frac{-t^2(\sigma/\sqrt{n})^2}{2})
ϕY(t)=E(exp(itY))=E(ek=1nYknit)=E(k=1neYknit)=k=1nE(eYknit)=k=1nΦYk(tn)=(ϕY((tn))n \phi _{\overline{Y}}(t)=E(exp(it\overline{Y}))=E(e^{\sum_{k=1}^{n}\frac{Y_k}{n}it})=E(\prod_{k=1}^ne^{\frac{Y_k}{n}it})=\prod_{k=1}^nE(e^{\frac{Y_k}{n}it})=\prod_{k=1}^n\Phi _{Y_k}(\frac{t}{n})=(\phi _Y((\frac{t}{n}))^n
于是:
var(x)=var(Y)=σ2/nvar(\overline{x})=var(\overline{Y})=\sigma^2/n,所以
E(1ni=1n(xix)2=σ2var((x))=σ2σ2/n=n1nσ2E(\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2=\sigma^2 -var((\overline{x}))=\sigma^2-\sigma^2/n=\frac{n-1}{n}\sigma^2
因此,1n1i=1n(xix)2σ2\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2才是\sigma^2的无偏估计值。

另一种方法:中误差
假设误差:
Δi=liX\Delta_i=l_i-X\dots
将各式取和再除以次数n,
[Δ]n=lnX\frac{[\Delta]}{n}=\frac{l}{n}-X,
然后平方:[ΔΔ]n2=(xx)2\frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2
改正数:vi=xliv_i=\overline{x}-l_i\dots

由于①②得:
Δi=vi+(xx)\Delta_i=-v_i+(\overline{x}-x)

[ΔΔ]n=[vv]n+2(xx)[v]n+(xx)2\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{2(\overline{x}-x)[v]}{n}+(\overline{x}-x)^2

由于改正值之和为0,[v]=0[v]=0

[ΔΔ]n2=(xx)2\frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2

[ΔΔ]n=[vv]n+(xx)2\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+(\overline{x}-x)^2

[ΔΔ]n=[vv]n+[ΔΔ]n2\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{[\Delta\Delta]}{{n}^2}

[ΔΔ]n[ΔΔ]n2=[vv]n\frac{[\Delta\Delta]}{{n}}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}

n[ΔΔ]n2[ΔΔ]n2=[vv]n\frac{n[\Delta\Delta]}{{n}^2}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}

(n1)[ΔΔ]n2=[vv]n\frac{(n-1)[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}

[ΔΔ]n=[vv]n1\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n-1}}

m2=[vv]n1m^2=\frac{[vv]}{{n-1}}

m=[vv]n1m=\sqrt{\frac{[vv]}{{n-1}}}

有效性

:如果两个参数估计量θ^θˇ\hat{\theta},\check{\theta}既是相合的,又是无偏的,那么他们两个中方差较小的那一个比较好,如果var(θ^)var(θˇ)var(\hat{\theta}) \geq var(\check{\theta}),那么我们就认为θˇ\check{\theta}比较好。
例:
x1xnx_1\dots\dots x_n,来自均值为μ,方差为σ2\sigma^2的总体分布的简单样本,ω1ωn\omega_1\dots \dots \omega_n为已知的非负权值,且满足ωi=1\sum \omega_i=1,试比较μ两个估计xi=1nωi\overline{x}和\sum_{i=1}^{n}\omega_i的大小
因为var(x)=σ2n,var(ωixi)=i=1nωi2σ2var(\overline{x})=\frac{\sigma^2}{n},var(\sum\omega_ix_i )=\sum_{i=1}^{n}\omega_i^2\sigma^2,也就是求1ni=1nωi2\frac{1}{n}\leq\sum_{i=1}^{n}\omega_i^2,由于柯西不等式:i=1nai2i=1nbi2(i=1naibi)2\sum_{i=1}^{n}a_i^2\sum_{i=1}^{n}b_i^2\geq(\sum_{i=1}^{n}a_ib_i)^2,令ai=1,bi=ωia_i=1,b_i=\omega_i,(1++1)(ω12++ωn2)(ω1++ωn)2(1+\dots +1)(\omega_1^2+\dots+\omega_n^2)\geq(\omega_1+\dots+\omega_n)^2
nωi21(1)n\sum\omega_i^2\geq1(权重之和为1)
所以:ωi21n\sum\omega_i^2\geq\frac{1}{n},也就说明了var(x)var(\overline{x})是更好的

渐进正态性

当样本趋于无穷时,去中心化去量纲化的估计量符合标准正态分布。

置信区间估计

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章