隨機變量分類
隨機變量的矩:
X是一個隨機變量對於任何正整數n,定義
E(Xn)=∫p(x)xndx
- 一階矩:n=1,E(X)期望(原點矩)
- 二階矩:n=2,E(X2)−E(X)2方差 (中心矩)
特徵函數:
ϕX(t)=E(eitX)=∑n=0∞n!E(Xn)(it)n
更多關於特徵函數
協方差:(多個隨機變量之間的關係)
X,Y爲兩個獨立隨機變量,協方差爲0
E(x,y)=∫y∫xxyp(x,y)dxdy=∫yp(y)∫xp(x)dxdy=∫yp(y)E(x)dy=E(x)∫yp(y)dy=E(x)E(y)
cov(x,y)=E(xy)−E(x)E(y)=0
x,y的相關係數(夾角cosα)
cov(x,y)/var(x)var(y)
概率分佈與特徵函數的關係:
對於任何X,ϕx(t)都存在
ϕ(0)=E(e0)=1,且∣ϕ(t)∣≤1,∀t,
ϕ(t)是一致連續函數,
ϕX(t)=ϕ−X(t),所以如果X關於中心對稱,那麼ϕX(t)就是一個實函數
如果X的n階矩存在,那麼ϕX(t)至少n階可微,並且E(Xn)=(−i)nϕ(n)(0)
如果X,Y是兩個獨立隨機變量,那麼ϕX+Y(t)=ϕX(t)ϕY(t)
如果ϕX(t)=ϕY(t),那麼X,Y服從同一個分布
如果Xn是一個隨機變量序列,而且ϕxn(t)逐點收斂於一個函數ϕ∞(t),如果ϕ∞(t)在0處連續,那麼存在一個分布X∞(t),使得Xn按分布收斂於X∞(t)
特殊分佈的特徵函數:
獨點分布p(a)=1,ϕ(t)=eiat
兩點分布p(−1)=p(1)=1/2,ϕ(t)=cos(t)
正態分布,概率密度函數f(x)=2Π1e−2x2,ϕ(t)=e−2t2
泊松分布p(n)=e−λn!λn,ϕ(t)=e−λ(1−eit)
重要極限:
limn→∞(1+1/n)n存在,且定義e=limn→∞(1+1/n)n,於是定義ex=limn→∞(1+x/n)n,limn→∞(1+x/n)n=limn→∞[(1+x/n)n/x]x=limn→∞[(1+1/m)m]x=ex
大數定律:
平均值收斂於期望
X是隨機變量,μ是X的期望,σ是X的方差,{Xk}k=1∞
是服從X的獨立同分布隨機變量,那麼Xn=n∑k=1nXk依概率收斂於μ。也就是說對於任何ε>0有
x→∞limP(∣Xn−μ∣>ε)=0
因爲X具有一階矩,所以特徵函數ϕX(t)存在一階泰勒展開ϕX(t)=1+iμt+o(t),於是
ϕX(t)=E(exp(itn∑i=1nxi))=i=1∏nE(exp(itX/n))=(1+iμt/n+o(t/n)n)
於是
n→∞limϕX(t)=n→∞lim(1+iμt/n+o(t/n))n
這就是獨點分佈的特徵函數,所以X按分佈收斂於獨點分佈。
收斂於一個常數,因爲x→∞limP(∣Xn−μ∣>ε)=0
X收斂於一個常數,所以X=μ,也就是驗證了
平均值收斂於期望值
中心極限定理:
X是隨機變量,ϕ(X)是X的特徵函數,{Xk}k=1∞
是服從X的獨立同分布隨機變量,那麼
服從正態分佈
zn=σx(xnμ)
依分佈收斂於正態分佈N(0,1)
也就是說對於任何ε>0有
n→∞limP(Zn<z)=Φ(z),∀z
其中Φ是標準正態分佈的分佈函數。
x的二階泰勒展開式
ϕx(t)=1+iμt−2σt2+o(t2)
令Y=(x−μ)/σ
E(Y)=E[σx−μ]=σ1E(x−μ)=σ1(E(X)−μ=0
E(Y2)=E(σx−μ)2=σ21[E(X2)−2μE(x)+μ2]=σ21[E(X2)−μ2]=σ21σ2=1
則,E(Y)=0,E(Y2)=1,於是有
ϕY(t)=1−21t2+o(t2)
因爲Zn=nY,所以
ϕZn(t)=E(exp(iti=1∑nYi/n))=(1−2n1t2+o(t2/n))n
Zn=n∑i=1nYi,最後就是n1Yi,把ϕY(t)的t換成t/n就是Zn的函數方程
於是
n→∞limϕzn(t)=n→∞lim(1−2nt2+o(t2/n))n=e−21t2
是一個正態分佈的特徵函數,所以Zn按分佈收斂於正態分佈。
參數估計
點估計性質:
相合性
:當樣本數量趨於無窮時,估計量收斂於參數真實值。
例:當我們求解參數 θ的方程時,爲什麼最大值就是參數的值?
求θ0,求極大值,就是要證明θ0就是極大值。
最大化參數函數方程lx(θ),也就是最大化n1lx(θ)是一樣的。
n1lx(θ)=n1i=1∑nlxi(θ)=n1i=1∑nln(fθ(xi))
這個無窮求和就收斂於期望(大數定律)
E(ln(fθ(x)))=∫xln(fθ(x))fθ0(x)dx
fθ(x)是一個函數,fθ0(x)是個值
而θ^是n1lx(θ)的極大值點,所以limθ^收斂於E(ln(fθ(x)))的極大值點
所以我們只需要證明θ0確定是E(ln(fθ(x)))的極大值點,因爲ln(x)是個凹函數,根據琴生不等式我們有:
∫xln(fθ(x))fθ0(x)dx−∫xln(fθ0(x))fθ0(x)dx=∫xln(fθ(x)/fθ0(x))fθ0(x)dx≤ln(∫xfθ0(x)fθ(x)fθ0(x)dx)=ln(∫xfθ(x)dx)=ln(1)=0
所以:E(ln(fθ(x)))−E(ln(fθ0(x)))≤0
θ0就是E(ln(fθ(x))的極大值點
所以求解參數方程的極大值就是求參數的真實值。
無偏性
:對於有限的樣本,估計量所符合的分佈之期望等於參數真實值。
例:方差的估計:
E(n1i=1∑n(xi−x)2)=E(n1i=1∑n(xi−μ+μ−x)2)=E(n1i=1∑n(xi−μ)2)−E((μ−x)2)=E((xi−μ)2)−E((μ−x)2)=σ2−var((x))≤σ2
E((xi−μ)2)=E(xi2−2μxi+μ2)=E(xi2)−2μE(xi)+μ2=E(x)2−μ2=σ2
E(n1i=1∑nn(xi−μ+μ−x)2)=i=1∑nn(xi−μ)2+i=1∑nn(μ−x)2+i=1∑nn2(xi−μ)(μ−x)=E(n1i=1∑n(xi−μ)2)+E((μ−x)2)+(−2E(μ−x)2)
E(2(μ−x)i=1∑n(n(xi−μ))=E(2(μ−x)(x−μ))=−2E(μ−x)2
所以我們傾向於低估σ2,那麼我們低估的這個值var((x))等於多少?
令Yi=Xi−μ,那麼x−μ=Y,所以E((μ−x)2)=E((Y)2)
Y的特徵函數是
ϕY(t)=exp(2−t2σ2)
所以
ϕY(t)=(exp(2n2−t2σ2))n=exp(2−t2(σ/n)2)
ϕY(t)=E(exp(itY))=E(e∑k=1nnYkit)=E(k=1∏nenYkit)=k=1∏nE(enYkit)=k=1∏nΦYk(nt)=(ϕY((nt))n
於是:
var(x)=var(Y)=σ2/n,所以
E(n1∑i=1n(xi−x)2=σ2−var((x))=σ2−σ2/n=nn−1σ2
因此,n−11∑i=1n(xi−x)2才是σ2的無偏估計值。
另一種方法:中誤差
假設誤差:
Δi=li−X… ①
將各式取和再除以次數n,
n[Δ]=nl−X,
然後平方:n2[ΔΔ]=(x−x)2
改正數:vi=x−li…②
由於①②得:
Δi=−vi+(x−x)
n[ΔΔ]=n[vv]+n2(x−x)[v]+(x−x)2
由於改正值之和爲0,[v]=0
n2[ΔΔ]=(x−x)2
n[ΔΔ]=n[vv]+(x−x)2
n[ΔΔ]=n[vv]+n2[ΔΔ]
n[ΔΔ]−n2[ΔΔ]=n[vv]
n2n[ΔΔ]−n2[ΔΔ]=n[vv]
n2(n−1)[ΔΔ]=n[vv]
n[ΔΔ]=n−1[vv]
m2=n−1[vv]
m=n−1[vv]
有效性
:如果兩個參數估計量θ^,θˇ既是相合的,又是無偏的,那麼他們兩個中方差較小的那一個比較好,如果var(θ^)≥var(θˇ),那麼我們就認爲θˇ比較好。
例:
設x1……xn,來自均值爲μ,方差爲σ2的總體分佈的簡單樣本,ω1……ωn爲已知的非負權值,且滿足∑ωi=1,試比較μ兩個估計x和∑i=1nωi的大小:
因爲var(x)=nσ2,var(∑ωixi)=∑i=1nωi2σ2,也就是求n1≤∑i=1nωi2,由於柯西不等式:∑i=1nai2∑i=1nbi2≥(∑i=1naibi)2,令ai=1,bi=ωi,(1+⋯+1)(ω12+⋯+ωn2)≥(ω1+⋯+ωn)2
n∑ωi2≥1(權重之和爲1)
所以:∑ωi2≥n1,也就說明了var(x)是更好的
漸進正態性
當樣本趨於無窮時,去中心化去量綱化的估計量符合標準正態分佈。
置信區間估計