概率與統計，參數估計（部分）

隨機變量分類

離散型隨機變量
連續型隨機變量

隨機變量的矩：
X是一個隨機變量對於任何正整數n，定義
$E(X^n)=\int p(x)x^ndx$

一階矩：n=1,E(X)期望（原點矩）
二階矩：n=2, $E(X^2)-E(X)^2$ 方差 (中心矩)

特徵函數：
$\phi_X(t)=E(e^{itX})$ = $\sum_{n=0}^{∞}\frac{E(X^n)}{n!} (it)^n$

更多關於特徵函數
協方差：（多個隨機變量之間的關係）
X，Y爲兩個獨立隨機變量，協方差爲0
${ E（x，y）=∫_y∫_xxyp（x，y）dxdy = ∫yp（y）∫xp(x)dxdy = ∫yp(y)E(x)dy =E(x) ∫yp(y)dy =E(x)E(y) }$

${ cov(x,y) = E(xy)-E(x)E(y) = 0}$

x,y的相關係數（夾角cosα）
${cov（x，y）/\sqrt{var（x）var（y）}}$

概率分佈與特徵函數的關係:
對於任何X， $\phi_x(t)都存在$
$\phi(0)=E(e^0)=1,且\mid\phi(t)\mid\leq1，\forall t$ ，
$\phi(t)是一致連續函數$ ，
$\phi_X(t)=\phi_-X(t),所以如果X關於中心對稱，那麼\phi_X(t)就是一個實函數$
$如果X的n階矩存在，那麼\phi_X(t)至少n階可微，並且E(X^n)=(-i)^n\phi^{(n)}(0)$
$如果X，Y是兩個獨立隨機變量，那麼\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t)$
$如果\phi_X(t)=\phi_Y(t),那麼X，Y服從同一個分佈$
$如果{X_n}是一個隨機變量序列，而且\phi_{x_n}(t)逐點收斂於一個函數\phi_∞(t),如果\phi_∞(t)在0處連續，那麼存在一個分佈X_∞(t),使得X_n按分佈收斂於X_∞(t)$

特殊分佈的特徵函數：
$獨點分佈p(a)=1,\phi(t)=e^{iat}$
$兩點分佈p(-1)=p(1)=1/2,\phi(t)=cos(t)$
$正態分佈，概率密度函數f(x)=\frac{1}{\sqrt{2}Π}e^{-\frac{x^2}{2}},\phi(t)=e^{-\frac{t^2}{2}}$
$泊松分佈p(n)=e^{-\lambda}\frac{\lambda^n}{n!}，\phi(t)=e^{-\lambda(1-e^{it})}$

重要極限：
${lim_{n\to\infty} (1+1/n)^n }存在，且定義e = lim_{n\to\infty} (1+1/n)^n，於是定義e^x = lim_{n\to\infty} (1+x/n)^n， lim_{n\to\infty} (1+x/n)^n = lim_{n\to\infty} [(1+x/n)^{n/x}]^x = lim_{n\to\infty} [(1+1/m)^m]^x = e^x$

大數定律：

平均值收斂於期望

X是隨機變量，μ是X的期望， $\sigma$ 是X的方差， $\{X_k\}_{k=1}^{∞}$

是服從X的獨立同分布隨機變量，那麼 $\overline{X}_n=\frac{\sum_{k=1}^{n}X_k}{n}$ 依概率收斂於μ。也就是說對於任何 $\varepsilon$ >0有
$\lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0$
因爲X具有一階矩，所以特徵函數 $\phi_X(t)存在一階泰勒展開\phi_X(t)=1+iμt+o(t)$ ,於是
$\phi_{\overline{X}}(t)=E(exp(it\frac{\sum_{i=1}^{n}x_i}{n}))=\prod_{i=1}^{n}E(exp(itX/n))=(1+iμt/n+o(t/n)^n)$
於是
$\lim_{n\to\infty}\phi_{\overline{X}}(t)=\lim_{n\to\infty}(1+iμt/n+o(t/n))^n$
這就是獨點分佈的特徵函數，所以 $\overline{X}$ 按分佈收斂於獨點分佈。
收斂於一個常數，因爲 $\lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0$
$\overline{X}$ 收斂於一個常數，所以 $\overline{X}$ =μ，也就是驗證了
平均值收斂於期望值

中心極限定理：

X是隨機變量， $\phi(X)$ 是X的特徵函數， $\{X_k\}_{k=1}^{∞}$

是服從X的獨立同分布隨機變量，那麼
服從正態分佈
$z_n = \frac{\sqrt{x}}{\sigma}(\overline{x_n} μ)$
依分佈收斂於正態分佈N(0,1)
也就是說對於任何 $\varepsilon$ ＞0有
$\lim_{n\to\infty}P(Z_n＜z)=\Phi(z),\forall z$
其中 $\Phi$ 是標準正態分佈的分佈函數。

x的二階泰勒展開式
${\phi x（t） = 1 + iμt - \frac{{\sigma}}{2} t^2 + o(t^2) }$
$令 Y = （x-μ)/\sigma$
${E（Y）= E[\frac{{x-μ}}{\sigma}] =\frac{{1}}{\sigma}E(x-μ) = \frac{{1}}{\sigma}(E(X)-μ} =0$
${E(Y^2) = E(\frac{{x-μ}}{\sigma})^2 =\frac{{1}}{\sigma^2}[E(X^2) -2μE(x)+μ^2]= \frac{{1}}{\sigma^2}[E(X^2)-μ^2]}= \frac{{1}}{\sigma^2}\sigma^2=1$
則， $E(Y)=0,E(Y^2)=1,於是有$
$\phi_Y(t)=1- \frac{1}{2}t^2+o(t^2)$
因爲 $Z_n = {\sqrt{n}}\overline{Y}$ ,所以
$\phi_{Z_n(t)}=E(exp(it\sum_{i=1}^{n}Y_i/\sqrt{n}))=(1-\frac{1}{2n}t^2+o(t^2/n))^n$
$Z_n =\sqrt{n}\sum_{i=1}^{n}Y_i,最後就是\frac{1}{\sqrt{n}}Y_i,把\phi_Y(t) 的t換成t/\sqrt{n}就是Z_n的函數方程$
於是
$\lim_{n\to\infty}\phi_{z_n}(t)=\lim_{n\to\infty}(1- \frac{t^2}{2n}+o(t^2/n))^n=e^{-\frac{1}{2}t^2}$
是一個正態分佈的特徵函數，所以 $Z_n$ 按分佈收斂於正態分佈。

參數估計

點估計
矩估計
極大似然估計
區間估計

點估計性質：

相合性

：當樣本數量趨於無窮時，估計量收斂於參數真實值。
例：當我們求解參數 $\theta$ 的方程時，爲什麼最大值就是參數的值？
求 $\theta_0$ ,求極大值，就是要證明 $\theta_0$ 就是極大值。
最大化參數函數方程 $l_x(\theta)$ ,也就是最大化 ${ \frac{1}{n}l_x(\theta)}$ 是一樣的。
${{ \frac{1}{n}l_x(\theta)}=\frac{1}{n}\sum_{i=1}^{n}l_{x_i}（\theta）= \frac{1}{n}\sum_{i=1}^{n}l_n(f_\theta(x_i))}$
這個無窮求和就收斂於期望（大數定律）
$E（l_n(f_\theta(x))）=∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx$
$f_\theta(x)是一個函數，f_{\theta_0}(x)是個值$
而 $\hat{\theta}$ 是 $\frac{1}{n}l_x(\theta)$ 的極大值點，所以 $lim\hat{\theta}收斂於 E（l_n(f_\theta(x))）的極大值點$
所以我們只需要證明 $\theta_0$ 確定是 $E（l_n(f_\theta(x))）$ 的極大值點，因爲 $l_n(x)是個凹函數，根據琴生不等式我們有：$
${∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx-∫_xl_n(f_{\theta_0}(x))f_{\theta_0} (x)dx}=∫_xl_n(f_\theta(x)/f{\theta_0}(x))f_{\theta_0}(x)dx \leq l_n(∫_x \frac{f_\theta(x)}{f_{\theta_0}(x)}f_{\theta_0}(x)dx)=ln(∫_xf_\theta(x)dx)=ln(1)=0$
所以： $E（l_n(f_\theta(x))）-E（l_n(f_{\theta_0}(x))）\leq 0$
$\theta_0就是E（l_n(f_\theta(x))的極大值點$

所以求解參數方程的極大值就是求參數的真實值。

無偏性

：對於有限的樣本，估計量所符合的分佈之期望等於參數真實值。
例：方差的估計：
$E（ \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2）=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ+μ-\overline{x})^2)=E（ \frac{1}{n}\sum_{i=1}^{n}(x_i-μ）^2)-E((μ-\overline{x})^2)=E((x_i-μ)^2)-E((μ-\overline{x})^2)=\sigma^2 -var((\overline{x}))\leq\sigma^2$
$E((x_i-μ)^2) = E(x_i^2-2μx_i +μ^2)=E(x_i^2)-2μE(x_i)+μ^2=E(x)^2-μ2=\sigma^2$
$E( \frac{1}{n}\sum_{i=1}^{n}\frac{(x_i-μ+μ-\overline{x})^2}{n})=\sum_{i=1}^{n}\frac{(x_i-μ)^2}{n}+\sum_{i=1}^{n}\frac{(μ-\overline{x})^2}{n}+\sum_{i=1}^{n}\frac{2(x_i-μ)(μ-\overline{x})}{n}= E(\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)+E((μ-\overline{x})^2)+(-2E(μ-\overline{x})^2)$
$E(2(μ-\overline{x})\sum_{i=1}^{n}( \frac{(x_i-μ)}{n})=E(2(μ-\overline{x})(\overline{x}-μ))=-2E(μ-\overline{x})^2$
所以我們傾向於低估 $\sigma^2$ ，那麼我們低估的這個值 $var((\overline{x}))$ 等於多少？

令 $Y_i=X_i-μ$ ,那麼 $\overline{x}-μ=\overline{Y}$ ，所以 $E((μ-\overline{x})^2)=E((\overline{Y})^2)$
Y的特徵函數是
$\phi _Y(t)=exp(\frac{-t^2\sigma^2}{2})$
所以
$\phi _{\overline{Y}}(t)=(exp( \frac{-t^2\sigma^2}{2n^2}))^n=exp( \frac{-t^2(\sigma/\sqrt{n})^2}{2})$
$\phi _{\overline{Y}}(t)=E(exp(it\overline{Y}))=E(e^{\sum_{k=1}^{n}\frac{Y_k}{n}it})=E(\prod_{k=1}^ne^{\frac{Y_k}{n}it})=\prod_{k=1}^nE(e^{\frac{Y_k}{n}it})=\prod_{k=1}^n\Phi _{Y_k}(\frac{t}{n})=(\phi _Y((\frac{t}{n}))^n$
於是：
$var(\overline{x})=var(\overline{Y})=\sigma^2/n$ ,所以
$E(\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2=\sigma^2 -var((\overline{x}))=\sigma^2-\sigma^2/n=\frac{n-1}{n}\sigma^2$
因此， $\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2纔是\sigma^2的無偏估計值。$

另一種方法：中誤差
假設誤差：
$\Delta_i=l_i-X\dots$ ①
將各式取和再除以次數n，
$\frac{[\Delta]}{n}=\frac{l}{n}-X$ ,
然後平方： $\frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2$
改正數： $v_i=\overline{x}-l_i\dots$ ②

由於①②得：
$\Delta_i=-v_i+(\overline{x}-x)$

$\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{2(\overline{x}-x)[v]}{n}+(\overline{x}-x)^2$

由於改正值之和爲0, $[v]=0$

$\frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2$

$\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+(\overline{x}-x)^2$

$\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{[\Delta\Delta]}{{n}^2}$

$\frac{[\Delta\Delta]}{{n}}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}$

$\frac{n[\Delta\Delta]}{{n}^2}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}$

$\frac{(n-1)[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}$

$\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n-1}}$

$m^2=\frac{[vv]}{{n-1}}$

$m=\sqrt{\frac{[vv]}{{n-1}}}$

有效性

：如果兩個參數估計量 $\hat{\theta}，\check{\theta}$ 既是相合的，又是無偏的，那麼他們兩個中方差較小的那一個比較好，如果 $var(\hat{\theta}) \geq var(\check{\theta})$ ,那麼我們就認爲 $\check{\theta}$ 比較好。
例：
設 $x_1\dots\dots x_n$ ,來自均值爲μ，方差爲 $\sigma^2$ 的總體分佈的簡單樣本， $\omega_1\dots \dots \omega_n$ 爲已知的非負權值，且滿足 $\sum \omega_i=1$ ,試比較μ兩個估計 $\overline{x}和\sum_{i=1}^{n}\omega_i的大小$ ：
因爲 $var(\overline{x})=\frac{\sigma^2}{n},var(\sum\omega_ix_i )=\sum_{i=1}^{n}\omega_i^2\sigma^2$ ,也就是求 $\frac{1}{n}\leq\sum_{i=1}^{n}\omega_i^2$ ，由於柯西不等式： $\sum_{i=1}^{n}a_i^2\sum_{i=1}^{n}b_i^2\geq(\sum_{i=1}^{n}a_ib_i)^2$ ,令 $a_i=1,b_i=\omega_i$ , $(1+\dots +1)(\omega_1^2+\dots+\omega_n^2)\geq(\omega_1+\dots+\omega_n)^2$
$n\sum\omega_i^2\geq1(權重之和爲1)$
所以： $\sum\omega_i^2\geq\frac{1}{n}$ ,也就說明了 $var(\overline{x})是更好的$

漸進正態性

當樣本趨於無窮時，去中心化去量綱化的估計量符合標準正態分佈。

概率與統計，參數估計（部分）

大數定律：

中心極限定理：

參數估計

點估計性質：

相合性

無偏性

有效性

漸進正態性

置信區間估計

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

django2.1.7從0開始搭建一個個人博客網站第2天

雲服務器或虛擬機安裝jdk和tormat

Django上下文處理器

Json中datatime問題

用戶註冊功能實現二

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結