總體樣本方差的無偏估計樣本方差爲什麼除以n-1

我們先從最基本的一些概念入手。

如下圖，腦子裏要浮現出總體樣本，還有一系列隨機選取的樣本 $X_{1},X_{2},...,X_{n}$ 。只要是樣本，腦子裏就要浮現出它的集合屬性，它不是單個個體，而是一堆隨機個體集合。樣本 $X_{i}$ 是總體樣本中隨機抽取一系列個體組成的集合，它是總體樣本的一部分。

應該把樣本 $X_{i}$ 和總體樣本一樣進行抽象化理解，因此樣本 $X_{i}$ 也存在期望 $E(X_{i})$ 和方差 $D(X_{i})$ 。

這裏有一個重要的假設，就是隨機選取的樣本 $X_{i}$ 與總體樣本同分布，它的意思就是說他們的統計特性是完全一樣的，即他們的期望值一樣，他們的方差值也是一樣的：

$E(X_{i})=E(X)=\mu$

$D(X_{i})=D(X)=\sigma ^{2}$

另外，由於每個樣本的選取是隨機的，因此可以假設 $X_{1},X_{2},...,X_{n}$ 不相關(意味着協方差爲0，即 $Cov(X_{i},X{j})=0,i\neq j$ )，根據方差性質就有:

$D(X_{i}+X_{j})=D(X_{i})+D(X_{j})+2Cov(X_{i},X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2}$

另外，還需要知道方差另外一個性質：

$D(aX_{i})=a^{2}D(X_{i}),a$ 爲常數。

還有一個，別忘了方差的基本公式：

以上的公式都很容易百度得到，也非常容易理解。這裏不贅述。

2）無偏估計

接下來，我們來理解下什麼叫無偏估計。

定義：設統計量 $\hat{\Theta}=\hat{\Theta}(X_{1},X_{2},...,X_{n})$ 是總體中未知參數 $\Theta$ 的估計量，若 $E(\hat{\Theta })=\Theta$ ，則稱 $\hat{\Theta }$ 爲 $\Theta$ 的無偏估計量；否則稱爲有偏估計量。

上面這個定義的意思就是說如果你拿到了一堆樣本觀測值，然後想通過這一堆觀測值去估計某個統計量 $\Theta$ ，一般就是想估計總體的期望或方差，如果你選擇的方法所估計出來的統計量 $\hat{\Theta}$ 的期望值與總體樣本的統計量 $\Theta$ 相等，那麼我們稱這種方法下的估計量是無偏估計，否則，就稱這種方法下的估計量爲有偏估計量。

按照這麼理解，那麼有偏無偏是針對你選擇估計的方法所說的，它並不是針對具體某一次估計出來的估計量結果。如果方法不對，即使你恰好在某一次計算出來一個值和總體樣本統計量值相同，也並不代表你選的這個方法是無偏的。爲什麼呢？這是因爲單次 $\hat{\Theta}$ 值是和你選取的樣本相關的，每次樣本（更加嚴格的意義是某次樣本快照）的值變化了，那麼每次 $\hat{\Theta}$ 的值就有可能跟着變化，你就需對這麼多 $\hat{\Theta}$ 求期望值來判斷 $\hat{\Theta}$ 的可信程度，如果一直重複這個試驗，然後它的期望值與總體樣本的統計量 $\Theta$ 一樣，那麼稱按照這種方法估計出來的統計量是無偏的。

來一點題外話：

但凡是想通過有限的信息去"估計"一個整體的"量"，這種情形下談這個"估計"的方法“有偏”\“無偏”纔有意義。一般來說，這種情形下，這個被估計的"量"肯定是有礙於技術或者現實情況無法嚴格準確獲取，比如因爲成本過高這些"量"無法通過窮舉或者其他辦法獲知。否則，如果被估計的"量"很容易獲取，就不需要"估計"了，採用統計方法就可以了。

如果你只是要進行簡單的"統計"就能獲得你想要的"量"，那麼沒必要去關心所採用的方法是"有偏"還是“無偏"；尤其是當整體信息很容易獲取的情況下談"有偏"還是“無偏"就毫無意義。比如要談某個班級的身高的平均值，直接將身高總數除以班級人數就可以了，因爲根本沒必要去"估計"，因爲它僅僅是個"統計"問題；同樣的，求一個班級的身高方差也不用任何糾結，求方差過程中除以班級人數就OK了，沒有必要非常變態的研究是除以"班級總人數"還是"班級總人數-1"，你要是去糾結這個，那就是吃飽了撐的了。但是，假如學校有幾萬人，你要統計的是整個學校所有的人的平均身高，這個時候一個一個進行統計是不現實的，反而需要使用的"估計"的方法。你採用的方法是隨便抓100個人過來，將這100人總的身高數值除以100，估計出來的平均值就可以假設認爲是整個學校的身高平均值，因爲，你是用部分樣本估計了總體樣本的一個”量“，所以這個是"估計"；此時，要是估計整個學校學生身高的方差，如果要想估計方法"無偏", 那就不是除以100了，而是除以99。當然，如果你是一位粗人，無所謂啥"有偏"還是“無偏"的束縛，那麼你直接除以100也不會遭到嘲笑的，具體原因得繼續往下看。總之，無法通過整體直接"統計"獲得你想要的"量"時，你只能通過"部分樣本"來做"整體樣本""量"的估計時，談估計方法的"有偏"還是"無偏"纔是有意義的。

3）樣本均值的無偏估計

接下來探討一下下面的結論：

定理1：樣本均值 $\bar{X}$ 是總體樣本均值 $\mu$ 的無偏估計。

注意：這裏樣本均值 $\bar{X}$ 不是指某個樣本 $X_{i}$ 的均值。

這裏需要看上面這張圖，這裏的均指的是特定某次樣本集合 $(X_{1},X_{2},...,X_{n})$ 的快照（上圖紅色框）,顯然這個快照也是一個樣本，只不過這個樣本它的樣本大小固定爲n，這與抽象的樣本不一樣（一般我們想象抽象的樣本，比如 $X_{i}$ ，是無限大的）。

明顯，

第一個樣本(快照)均值是長這樣子的： $\frac{1}{n}(x_{11}+x_{21}+...+x_{i1}+...+x_{n1})=\hat{\mu _{1}}$

第二個樣本(快照)均值是長這樣子的： $\frac{1}{n}(x_{12}+x_{22}+...+x_{i2}+...+x_{n2})=\hat{\mu _{2}}$

....依此類推...

$x_{ij}$ 表示第次隨機從從本 $X_{i}$ 獲取一個個體。

試驗一直進行下去，你就會有一些列估計出來的樣本(快照)均值 $\hat{\mu _{1}},\hat{\mu _{2}}...\hat{\mu _{i}},\hat{\mu _{m}}...$ ，實際上這也稱爲了一個樣本，我們稱爲均值的樣本，既然是樣本，它就也有統計量。我們這裏重點關注這個均值樣本的期望。因爲按照估計量的有偏無偏定義，如果 $E(\hat{\mu})=\mu$ ，那麼按照這個方法估計的均值 $\hat{\mu }$ 就是無偏的。仔細思考，估計量有偏無偏它是針對你所選定的某個估計方法所形成的估計量樣本空間來討論的，討論單次試驗形成的估計量是沒有太大意義的，只有針對形成的估計量樣本空間纔有意義。

下面驗證上面的方法形成的 $\hat{\mu}$ 估計是無偏的。

$E(\hat{\mu})=\frac{1}{m}(\hat{\mu}_{1}+\hat{\mu}_{2}+...+\hat{\mu}_{m})$

$=\frac{1}{n}(\frac{x_{11}+x_{12}+...+x_{1m}}{m}+\frac{x_{21}+x_{22}+...+x_{2m}}{m}+...+\frac{x_{n1}+x_{n2}+...+x_{nm}}{m})$

$=\frac{1}{n}(E(X_{1})+E(X_{2})+...+E(X_{n}))$

$=\frac{1}{n}(n*\mu )$

$=\mu$

這麼一來，就和教科書和網上的資料結果上都對上了，教科書上的公式在下面列出（ $\hat{\mu}$ 符號用 $\bar{X}$ 代替）：

$E(\bar{X})=E(\frac{1}{n}\sum_{i=1}^{n}X_{i} )=\frac{1}{n}\sum_{i=1}^{n}E(X_{i})=\mu$

有了前面的分析，上面的教科書公式就很好理解了，注意，裏頭的 $X_{i}$ 是原始樣本， $\bar{X}$ 也是樣本!!! 公式推導過程中， $\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}$ 表示了原始的 $(X_{1},X_{2},...,X_{n})$ 樣本快照求和後再除以n形成的估計量樣本，所以是可以對其再進行求期望的。

討論完估計量樣本 $\bar{X}$ 的均值，我們別忘了，既然它是個樣本，那麼可以計算 $\bar{X}$ 的方差 $D(\bar X)$ （後面會用到）:

$D(\bar X)=D(\frac{1}{n}\sum_{i=1}^{n}X_{i})$

$=\frac{1}{n^2}D(\sum_{i=1}^{n}X_{i})$

$=\frac{n\sigma ^2}{n^2}=\frac{\sigma ^2}{n}$

所以，樣本（快照）均值的期望還是總體期望，但是，樣本（快照)均值的方差卻不是原來的方差了，它變成原來方差的1/n。這也容易理解，方差變小了是由於樣本不是原來的樣本 $X_{i}$ 了，現在的樣本是均值化後的新樣本 $\bar {X}$ ，既然均值化了，那麼比起原來的老樣本 $X_{i}$ ，它的離散程度顯然是應當變小的。

4）樣本方差的無偏估計

定理2：樣本方差 $S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$ 是總體樣本方差 $\sigma ^{2}$ 的無偏估計。

也就是需要證明下面的結論：

$E(S^2)=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^2)=\sigma ^2$

首先，腦子裏要非常清楚，你截至目前，僅僅知道以下內容：

$E(X_{i})=E(X)=\mu$

$D(X_{i})=D(X)=\sigma ^{2}$

$Cov(X_{i}X{j})=0,i\neq j$

$D(X_{i}+X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2},i\neq j$

$D(X)=\sigma ^{2}=E(X^2)-E(X)^2=E(X^2)-\mu^2$

${\color{Red} E(\bar{X})=\mu}$

${\color{Red} D(\bar X)=\frac{\sigma ^2}{n}}$

其中前面5個來自1），最後2個來自3)。

至於爲什麼是 $S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$ ，而不是 $S^{2}=\frac{1}{n}\sum_{n}^{i=1}(X_{i}-\bar{X})^{2}$ ，需要看下面的證明。

$E(S^{2})=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})=\frac{1}{n-1}E(\sum_{i=1}^{n}X_{i}^2-n \bar{X}^{2})$

$=\frac{1}{n-1}(\sum_{i=1}^{n}E(X_{i}^2)-nE(\bar{X}^{2}) )$

$=\frac{1}{n-1}(\sum_{i=1}^{n}[D(X_{i})+E^2(X_{i})]-n[D(\bar{X})+E^{2}(\bar{X}) ])$

$=\frac{1}{n-1}(\sum_{i=1}^{n}[\sigma ^2+\mu^2]-n[\frac{1}{n}\sigma ^2+\mu^{2} ])=\sigma ^2$

那麼爲什麼會導致這麼個奇怪的結果，不是 $\frac{1}{n}$ 而是 $\frac{1}{n-1}$ ？

仔細看上面的公式，如果 $D(\bar X)=0$ ，那麼就應該是 $\frac{1}{n}$ 了，但是殘酷的事實是 $D(\bar X)\neq 0$ （除非 $\sigma$ 本身就等於0），導致 $\frac{1}{n-1}$ 的罪魁禍首是 $D(\bar X)\neq 0$ 。這就有告訴我們， $D(\bar X)$ 雖然將方差縮小了n倍，但是仍然還有殘存，除非 $\sigma$ 本身就等於0，纔會有 $D(\bar X)=0$ ，但這就意味着所有樣本的個體處處等於 $\mu$ 。

還有一種情況，如果你事先就知道 $\mu$ ，那麼 $S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}$ 就是 $\sigma ^{2}$ 的無偏估計，這個時候就是 $\frac{1}{n}$ 了。

---------------------------------------------------------------------------------------------------------------------------------------------

有人還是問我爲什麼 $\mu$ （總體均值）已知，就可以用 $S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}$ 作爲總體方差 $\sigma ^{2}$ 的無偏估計，這個完全直接推導就可以證明。證明如下：

$E(S^{2})=E(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2})$

$=\frac{1}{n}\sum_{i=1}^{n}E[(X_{i}-\mu)^{2}]$

$=\frac{1}{n}\sum_{i=1}^{n}[E(X_{i}^2)-2\mu E(X_{i})+\mu^{2}]$

$=\frac{1}{n}\sum_{i=1}^{n}[E(X_{i}^2)-\mu^{2}]$

$=\frac{1}{n}\sum_{i=1}^{n}[\sigma^2+\mu^2-\mu^{2}]$

$=\sigma^{2}$

這個結論告訴我們，如果某個人很牛逼，他可以知道確切的總體樣本均值 $\mu$ ，那麼就可以用 $S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}$ 來估計總體樣本方差 $\sigma^{2}$ ，並且這個估計方法是保證你無偏的。

而上面的 $S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$ ，請睜大眼睛看清楚，用的是 $\bar{X}$ 。大部分的實際應用情況下，誰也不知道總體樣本均值 $\mu$ (請問你知道全球人均身高麼？鬼知道，地球上沒有一個人可以知道！我想即使是外星爸爸也不知道！)，但是我還是想在全球人都不知道的情況下去估計總體的身高方差，怎麼辦？現在有個辦法，我們可以去抓一些人（部分樣本）來做一個部分樣本均值，那就用部分樣本均值也就是 $\bar{X}$ 來近似代表 $\mu$ （上面的定理1告訴我們這種方法對於估計 $\mu$ 是無偏的），但是現在我想估計另外一個東東，那個東東叫總體樣本方差 $\sigma^{2}$ 。好了，我們可以也用 $\bar{X}$ 代入 $S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$ 來估計總體樣本方差 $\sigma^{2}$ ，並且如前面所分析的，這個估計方法針對 $\sigma^{2}$ 是無偏的。（至於爲啥是奇怪的 $\frac{1}{n-1}$ ，簡單直接的原因是因爲我不知道總體樣本均值 $\mu$ ，因爲如果你能夠知道 $\mu$ ，我們就可以不需要用奇怪的 $\frac{1}{n-1}$ ，我們就可以用 $S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}$ 去估計總體樣本方差）。

總之， $S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}$ 是理論上的總體樣本方差。 $S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$ 是實際應用中採用的總體樣本方差估計。

------------------------------------------------------------------------------------------------------------------------------------------------------------------

統計學中還有一個"自由度"的概念。爲什麼是除以n-1還可以從自由度角度進行解釋，具體可以參看下面百度的解釋：

自由度（統計學的自由度）

總體樣本方差的無偏估計樣本方差爲什麼除以n-1

總體樣本方差的無偏估計樣本方差爲什麼除以n-1

2）無偏估計

3）樣本均值的無偏估計

4）樣本方差的無偏估計

Wireshark 安裝+使用（一）

二叉樹操作的總結

《神經科學：探索腦》學習筆記（第12章軀體感覺系統）

山東大學軟件學院計算機組成原理（考試）——期末考試回憶版

《神經科學：探索腦》學習筆記（第8章化學感覺）

Cache – 主存的地址映射及相關計算問題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結