概率與統計,參數估計(部分)

隨機變量分類

  • 離散型隨機變量
  • 連續型隨機變量

隨機變量的矩:
X是一個隨機變量對於任何正整數n,定義
E(Xn)=p(x)xndxE(X^n)=\int p(x)x^ndx

  • 一階矩:n=1,E(X)期望(原點矩)
  • 二階矩:n=2,E(X2)E(X)2E(X^2)-E(X)^2方差 (中心矩)

特徵函數:
ϕX(t)=E(eitX)\phi_X(t)=E(e^{itX})=n=0E(Xn)n!(it)n\sum_{n=0}^{∞}\frac{E(X^n)}{n!} (it)^n

在這裏插入圖片描述
更多關於特徵函數
協方差:(多個隨機變量之間的關係)
X,Y爲兩個獨立隨機變量,協方差爲0
Exy=yxxypxydxdy=ypyxp(x)dxdy=yp(y)E(x)dy=E(x)yp(y)dy=E(x)E(y) { E(x,y)=∫_y∫_xxyp(x,y)dxdy = ∫yp(y)∫xp(x)dxdy = ∫yp(y)E(x)dy =E(x) ∫yp(y)dy =E(x)E(y) }

cov(x,y)=E(xy)E(x)E(y)=0 { cov(x,y) = E(xy)-E(x)E(y) = 0}

x,y的相關係數(夾角cosα)
covxy/varxvary {cov(x,y)/\sqrt{var(x)var(y)}}

概率分佈與特徵函數的關係:
對於任何X,ϕx(t)\phi_x(t)都存在
ϕ(0)=E(e0)=1,ϕ(t)1t\phi(0)=E(e^0)=1,且\mid\phi(t)\mid\leq1,\forall t
ϕ(t)\phi(t)是一致連續函數
ϕX(t)=ϕX(t),XϕX(t)\phi_X(t)=\phi_-X(t),所以如果X關於中心對稱,那麼\phi_X(t)就是一個實函數
XnϕX(t)nE(Xn)=(i)nϕ(n)(0)如果X的n階矩存在,那麼\phi_X(t)至少n階可微,並且E(X^n)=(-i)^n\phi^{(n)}(0)
XYϕX+Y(t)=ϕX(t)ϕY(t)如果X,Y是兩個獨立隨機變量,那麼\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t)
ϕX(t)=ϕY(t),XY如果\phi_X(t)=\phi_Y(t),那麼X,Y服從同一個分佈
Xnϕxn(t)ϕ(t),ϕ(t)0X(t),使XnX(t)如果{X_n}是一個隨機變量序列,而且\phi_{x_n}(t)逐點收斂於一個函數\phi_∞(t),如果\phi_∞(t)在0處連續,那麼存在一個分佈X_∞(t),使得X_n按分佈收斂於X_∞(t)

特殊分佈的特徵函數:
p(a)=1,ϕ(t)=eiat獨點分佈p(a)=1,\phi(t)=e^{iat}
p(1)=p(1)=1/2,ϕ(t)=cos(t)兩點分佈p(-1)=p(1)=1/2,\phi(t)=cos(t)
f(x)=12Πex22,ϕ(t)=et22正態分佈,概率密度函數f(x)=\frac{1}{\sqrt{2}Π}e^{-\frac{x^2}{2}},\phi(t)=e^{-\frac{t^2}{2}}
p(n)=eλλnn!ϕ(t)=eλ(1eit)泊松分佈p(n)=e^{-\lambda}\frac{\lambda^n}{n!},\phi(t)=e^{-\lambda(1-e^{it})}

重要極限:
limn(1+1/n)ne=limn(1+1/n)nex=limn(1+x/n)nlimn(1+x/n)n=limn[(1+x/n)n/x]x=limn[(1+1/m)m]x=ex {lim_{n\to\infty} (1+1/n)^n }存在,且定義e = lim_{n\to\infty} (1+1/n)^n,於是定義e^x = lim_{n\to\infty} (1+x/n)^n, lim_{n\to\infty} (1+x/n)^n = lim_{n\to\infty} [(1+x/n)^{n/x}]^x = lim_{n\to\infty} [(1+1/m)^m]^x = e^x

大數定律:

平均值收斂於期望

X是隨機變量,μ是X的期望,σ\sigma是X的方差,{Xk}k=1\{X_k\}_{k=1}^{∞}

是服從X的獨立同分布隨機變量,那麼Xn=k=1nXkn\overline{X}_n=\frac{\sum_{k=1}^{n}X_k}{n}依概率收斂於μ。也就是說對於任何ε\varepsilon>0有
limxP(Xnμ>ε)=0 \lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0
因爲X具有一階矩,所以特徵函數ϕX(t)ϕX(t)=1+iμt+o(t)\phi_X(t)存在一階泰勒展開\phi_X(t)=1+iμt+o(t),於是
ϕX(t)=E(exp(iti=1nxin))=i=1nE(exp(itX/n))=(1+iμt/n+o(t/n)n) \phi_{\overline{X}}(t)=E(exp(it\frac{\sum_{i=1}^{n}x_i}{n}))=\prod_{i=1}^{n}E(exp(itX/n))=(1+iμt/n+o(t/n)^n)
於是
limnϕX(t)=limn(1+iμt/n+o(t/n))n \lim_{n\to\infty}\phi_{\overline{X}}(t)=\lim_{n\to\infty}(1+iμt/n+o(t/n))^n
這就是獨點分佈的特徵函數,所以X\overline{X}按分佈收斂於獨點分佈。
收斂於一個常數,因爲limxP(Xnμ>ε)=0 \lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0
X\overline{X}收斂於一個常數,所以X\overline{X}=μ,也就是驗證了
平均值收斂於期望值

中心極限定理:

X是隨機變量,ϕ(X)\phi(X)是X的特徵函數,{Xk}k=1\{X_k\}_{k=1}^{∞}

是服從X的獨立同分布隨機變量,那麼
服從正態分佈
zn=xσ(xnμ) z_n = \frac{\sqrt{x}}{\sigma}(\overline{x_n} μ)
依分佈收斂於正態分佈N(0,1)
也就是說對於任何ε\varepsilon>0有
limnP(Znz)=Φ(z),z \lim_{n\to\infty}P(Z_n<z)=\Phi(z),\forall z
其中Φ\Phi是標準正態分佈的分佈函數。

x的二階泰勒展開式
ϕxt=1+iμtσ2t2+o(t2) {\phi x(t) = 1 + iμt - \frac{{\sigma}}{2} t^2 + o(t^2) }
Y=xμ)/σ 令 Y = (x-μ)/\sigma
EY=E[xμσ]=1σE(xμ)=1σ(E(X)μ=0 {E(Y)= E[\frac{{x-μ}}{\sigma}] =\frac{{1}}{\sigma}E(x-μ) = \frac{{1}}{\sigma}(E(X)-μ} =0
E(Y2)=E(xμσ)2=1σ2[E(X2)2μE(x)+μ2]=1σ2[E(X2)μ2]=1σ2σ2=1 {E(Y^2) = E(\frac{{x-μ}}{\sigma})^2 =\frac{{1}}{\sigma^2}[E(X^2) -2μE(x)+μ^2]= \frac{{1}}{\sigma^2}[E(X^2)-μ^2]}= \frac{{1}}{\sigma^2}\sigma^2=1
則,E(Y)=0,E(Y2)=1,E(Y)=0,E(Y^2)=1,於是有
ϕY(t)=112t2+o(t2) \phi_Y(t)=1- \frac{1}{2}t^2+o(t^2)
因爲Zn=nYZ_n = {\sqrt{n}}\overline{Y},所以
ϕZn(t)=E(exp(iti=1nYi/n))=(112nt2+o(t2/n))n \phi_{Z_n(t)}=E(exp(it\sum_{i=1}^{n}Y_i/\sqrt{n}))=(1-\frac{1}{2n}t^2+o(t^2/n))^n
Zn=ni=1nYi,1nYi,ϕY(t)tt/nZnZ_n =\sqrt{n}\sum_{i=1}^{n}Y_i,最後就是\frac{1}{\sqrt{n}}Y_i,把\phi_Y(t) 的t換成t/\sqrt{n}就是Z_n的函數方程
於是
limnϕzn(t)=limn(1t22n+o(t2/n))n=e12t2 \lim_{n\to\infty}\phi_{z_n}(t)=\lim_{n\to\infty}(1- \frac{t^2}{2n}+o(t^2/n))^n=e^{-\frac{1}{2}t^2}
是一個正態分佈的特徵函數,所以ZnZ_n按分佈收斂於正態分佈。

參數估計

  • 點估計
    矩估計
    極大似然估計
  • 區間估計

點估計性質:

相合性

:當樣本數量趨於無窮時,估計量收斂於參數真實值。
例:當我們求解參數 θ\theta的方程時,爲什麼最大值就是參數的值?
θ0\theta_0,求極大值,就是要證明θ0\theta_0就是極大值。
最大化參數函數方程lx(θ)l_x(\theta),也就是最大化1nlx(θ){ \frac{1}{n}l_x(\theta)}是一樣的。
1nlx(θ)=1ni=1nlxiθ=1ni=1nln(fθ(xi)) {{ \frac{1}{n}l_x(\theta)}=\frac{1}{n}\sum_{i=1}^{n}l_{x_i}(\theta)= \frac{1}{n}\sum_{i=1}^{n}l_n(f_\theta(x_i))}
這個無窮求和就收斂於期望(大數定律)
Eln(fθ(x))=xln(fθ(x))fθ0(x)dx E(l_n(f_\theta(x)))=∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx
fθ(x)fθ0(x) f_\theta(x)是一個函數,f_{\theta_0}(x)是個值
θ^\hat{\theta}1nlx(θ)\frac{1}{n}l_x(\theta)的極大值點,所以limθ^Eln(fθ(x))lim\hat{\theta}收斂於 E(l_n(f_\theta(x)))的極大值點
所以我們只需要證明θ0\theta_0確定是Eln(fθ(x))E(l_n(f_\theta(x)))的極大值點,因爲ln(x)l_n(x)是個凹函數,根據琴生不等式我們有:
xln(fθ(x))fθ0(x)dxxln(fθ0(x))fθ0(x)dx=xln(fθ(x)/fθ0(x))fθ0(x)dxln(xfθ(x)fθ0(x)fθ0(x)dx)=ln(xfθ(x)dx)=ln(1)=0 {∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx-∫_xl_n(f_{\theta_0}(x))f_{\theta_0} (x)dx}=∫_xl_n(f_\theta(x)/f{\theta_0}(x))f_{\theta_0}(x)dx \leq l_n(∫_x \frac{f_\theta(x)}{f_{\theta_0}(x)}f_{\theta_0}(x)dx)=ln(∫_xf_\theta(x)dx)=ln(1)=0
所以:Eln(fθ(x))Eln(fθ0(x))0E(l_n(f_\theta(x)))-E(l_n(f_{\theta_0}(x)))\leq 0
θ0Eln(fθ(x))\theta_0就是E(l_n(f_\theta(x))的極大值點

所以求解參數方程的極大值就是求參數的真實值。

無偏性

:對於有限的樣本,估計量所符合的分佈之期望等於參數真實值。
例:方差的估計:
E1ni=1n(xix)2=E(1ni=1n(xiμ+μx)2)=E1ni=1n(xiμ2)E((μx)2)=E((xiμ)2)E((μx)2)=σ2var((x))σ2 E( \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2)=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ+μ-\overline{x})^2)=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)-E((μ-\overline{x})^2)=E((x_i-μ)^2)-E((μ-\overline{x})^2)=\sigma^2 -var((\overline{x}))\leq\sigma^2
E((xiμ)2)=E(xi22μxi+μ2)=E(xi2)2μE(xi)+μ2=E(x)2μ2=σ2 E((x_i-μ)^2) = E(x_i^2-2μx_i +μ^2)=E(x_i^2)-2μE(x_i)+μ^2=E(x)^2-μ2=\sigma^2
E(1ni=1n(xiμ+μx)2n)=i=1n(xiμ)2n+i=1n(μx)2n+i=1n2(xiμ)(μx)n=E(1ni=1n(xiμ)2)+E((μx)2)+(2E(μx)2) E( \frac{1}{n}\sum_{i=1}^{n}\frac{(x_i-μ+μ-\overline{x})^2}{n})=\sum_{i=1}^{n}\frac{(x_i-μ)^2}{n}+\sum_{i=1}^{n}\frac{(μ-\overline{x})^2}{n}+\sum_{i=1}^{n}\frac{2(x_i-μ)(μ-\overline{x})}{n}= E(\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)+E((μ-\overline{x})^2)+(-2E(μ-\overline{x})^2)
E(2(μx)i=1n((xiμ)n)=E(2(μx)(xμ))=2E(μx)2 E(2(μ-\overline{x})\sum_{i=1}^{n}( \frac{(x_i-μ)}{n})=E(2(μ-\overline{x})(\overline{x}-μ))=-2E(μ-\overline{x})^2
所以我們傾向於低估σ2\sigma^2,那麼我們低估的這個值var((x))var((\overline{x}))等於多少?

Yi=XiμY_i=X_i-μ,那麼xμ=Y\overline{x}-μ=\overline{Y},所以E((μx)2)=E((Y)2)E((μ-\overline{x})^2)=E((\overline{Y})^2)
Y的特徵函數是
ϕY(t)=exp(t2σ22) \phi _Y(t)=exp(\frac{-t^2\sigma^2}{2})
所以
ϕY(t)=(exp(t2σ22n2))n=exp(t2(σ/n)22) \phi _{\overline{Y}}(t)=(exp( \frac{-t^2\sigma^2}{2n^2}))^n=exp( \frac{-t^2(\sigma/\sqrt{n})^2}{2})
ϕY(t)=E(exp(itY))=E(ek=1nYknit)=E(k=1neYknit)=k=1nE(eYknit)=k=1nΦYk(tn)=(ϕY((tn))n \phi _{\overline{Y}}(t)=E(exp(it\overline{Y}))=E(e^{\sum_{k=1}^{n}\frac{Y_k}{n}it})=E(\prod_{k=1}^ne^{\frac{Y_k}{n}it})=\prod_{k=1}^nE(e^{\frac{Y_k}{n}it})=\prod_{k=1}^n\Phi _{Y_k}(\frac{t}{n})=(\phi _Y((\frac{t}{n}))^n
於是:
var(x)=var(Y)=σ2/nvar(\overline{x})=var(\overline{Y})=\sigma^2/n,所以
E(1ni=1n(xix)2=σ2var((x))=σ2σ2/n=n1nσ2E(\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2=\sigma^2 -var((\overline{x}))=\sigma^2-\sigma^2/n=\frac{n-1}{n}\sigma^2
因此,1n1i=1n(xix)2σ2\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2纔是\sigma^2的無偏估計值。

另一種方法:中誤差
假設誤差:
Δi=liX\Delta_i=l_i-X\dots
將各式取和再除以次數n,
[Δ]n=lnX\frac{[\Delta]}{n}=\frac{l}{n}-X,
然後平方:[ΔΔ]n2=(xx)2\frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2
改正數:vi=xliv_i=\overline{x}-l_i\dots

由於①②得:
Δi=vi+(xx)\Delta_i=-v_i+(\overline{x}-x)

[ΔΔ]n=[vv]n+2(xx)[v]n+(xx)2\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{2(\overline{x}-x)[v]}{n}+(\overline{x}-x)^2

由於改正值之和爲0,[v]=0[v]=0

[ΔΔ]n2=(xx)2\frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2

[ΔΔ]n=[vv]n+(xx)2\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+(\overline{x}-x)^2

[ΔΔ]n=[vv]n+[ΔΔ]n2\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{[\Delta\Delta]}{{n}^2}

[ΔΔ]n[ΔΔ]n2=[vv]n\frac{[\Delta\Delta]}{{n}}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}

n[ΔΔ]n2[ΔΔ]n2=[vv]n\frac{n[\Delta\Delta]}{{n}^2}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}

(n1)[ΔΔ]n2=[vv]n\frac{(n-1)[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}

[ΔΔ]n=[vv]n1\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n-1}}

m2=[vv]n1m^2=\frac{[vv]}{{n-1}}

m=[vv]n1m=\sqrt{\frac{[vv]}{{n-1}}}

有效性

:如果兩個參數估計量θ^θˇ\hat{\theta},\check{\theta}既是相合的,又是無偏的,那麼他們兩個中方差較小的那一個比較好,如果var(θ^)var(θˇ)var(\hat{\theta}) \geq var(\check{\theta}),那麼我們就認爲θˇ\check{\theta}比較好。
例:
x1xnx_1\dots\dots x_n,來自均值爲μ,方差爲σ2\sigma^2的總體分佈的簡單樣本,ω1ωn\omega_1\dots \dots \omega_n爲已知的非負權值,且滿足ωi=1\sum \omega_i=1,試比較μ兩個估計xi=1nωi\overline{x}和\sum_{i=1}^{n}\omega_i的大小
因爲var(x)=σ2n,var(ωixi)=i=1nωi2σ2var(\overline{x})=\frac{\sigma^2}{n},var(\sum\omega_ix_i )=\sum_{i=1}^{n}\omega_i^2\sigma^2,也就是求1ni=1nωi2\frac{1}{n}\leq\sum_{i=1}^{n}\omega_i^2,由於柯西不等式:i=1nai2i=1nbi2(i=1naibi)2\sum_{i=1}^{n}a_i^2\sum_{i=1}^{n}b_i^2\geq(\sum_{i=1}^{n}a_ib_i)^2,令ai=1,bi=ωia_i=1,b_i=\omega_i,(1++1)(ω12++ωn2)(ω1++ωn)2(1+\dots +1)(\omega_1^2+\dots+\omega_n^2)\geq(\omega_1+\dots+\omega_n)^2
nωi21(1)n\sum\omega_i^2\geq1(權重之和爲1)
所以:ωi21n\sum\omega_i^2\geq\frac{1}{n},也就說明了var(x)var(\overline{x})是更好的

漸進正態性

當樣本趨於無窮時,去中心化去量綱化的估計量符合標準正態分佈。

置信區間估計

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章