抽樣分佈的概念

隨機抽樣(Random Sampling)和隨機變量(Random Variable)

我們想研究一個總體(Population)或叫母體的某些參數(Parameter)，比如均值（平均特徵）、方差（分散的特徵）、中位數（比例的特徵），我們很多情況下，不能把所有的個體分別研究，例如我們想研究中國的成年女性罩杯的大小，總不能把所有中國女人的胸都兩個兩個拿來測吧？所以，我們只能抽樣。相對的，如果全面地，一個一個地查，那叫普查。通常，樣本總體可能太大，甚至就是抽象無限的，所以普查不可行，我們只能抽樣。可是，我們要研究的是總體的特徵啊，你只給我個抽樣的，你怎麼給我保證，你的抽樣能代表總體？這是一個關鍵的問題。這裏有兩個前提，第一是，抽樣這個行爲必須是隨機的；第二是，樣本中的每個個體有相同的概率被抽中。這兩點可以統一歸納爲一個名詞–隨機抽樣(Random Sampling)。通過隨機抽樣抽出的樣本，例如，我們抽 $n$ 個，他們就是這個總體的容量爲 $n$ 的隨機樣本，記爲

X_{1}, X_{2}, X_{3}, \dots, X_{n},

其中每個

X_{i}, i = 1, 2, \dots, n

爲一個服從總體分佈的隨機變量(Random Variable)，每一個隨機變量是獨立同分布(Independent and Identically Distributed,i.i.d. or iid or IID)的。什麼是獨立？獨立就是抽取樣本的這個行爲互相之間沒有影響。可是我們都知道，在概率論裏我們經常研究的抽小球的問題中，如果小球抽出不放回，則每次的抽取是會影響總體分佈的，不同的抽取實驗之間也是不獨立的。而很多時候我們抽樣是不放回的，例如，意見徵求的調查中，我們不希望重複問到一個人，這樣的抽樣是不放回的。所以照這樣分析，這個抽樣是獨立的嗎？實際上，對於抽樣我們有一個隱含的無限總體假設，那就是當樣本數

n

和總體個數

N

之比小於

5 %

時，即

\frac{n}{N} < 0.05

時，可以認爲總體是無限的，此時抽取出來的樣本可以視作對總體分佈無影響。我們也可以從一個例子來理解這件事，例如，小明有1000塊錢，如果我跟他借50塊錢，可能他會覺得不痛不癢，可是如果小明只有100塊錢，我還是借50塊錢，可能他第二天就要找我算賬了，就是這個道理，所有有時候我們也可以把這個假設理解成爲借錢假設。那什麼是同分布呢？先囉嗦地說一下變量服從分佈是什麼意思吧。我自己在這一點的理解一開始就是有偏差的，我當時想不明白一個隨機變量服從分佈是什麼意思，一個分佈不是要畫成一條曲線嗎，至少應該有很多點纔可以描成一條曲線，然後畫出來的曲線像是某個分佈的曲線才叫服從吧。實際上，一個變量確實是沒辦法畫成一條曲線，但是卻不妨礙它成爲曲線的一部分，而我們知道，例如正態分佈(Normal Distribution)的曲線，是中間高，兩邊矮，意思是說在中間分佈的比較密集，兩邊比較稀疏，我們的變量服從這個分佈，要求的是抽取出來的這個變量的屬性會符合這個分佈所描述的特性，例如從所有中國成年男性隨機抽取一個人，按照總體的分佈，這個人的身高在

170 c m

概率是比較高的，如果這個人的身高是一個服從總體分佈的隨機變量，那麼這個變量的取值的概率應該是和總體取各值的概率是相近的，這樣就叫服從分佈。所以，這些隨機變量同分布的意思就是，他們取到各個值的概率，都符合總體分佈中取到各個值的概率。

一般大學裏都是先教概率論再教統計，所以有時候容易忽略總體的數據是難以獲得的這一現實，因爲在概率論中我們都假設總體就服從某一分佈，然後來研究它的一些特性和相關定理和計算的問題。雖然我們不知道總體的分佈，但它卻是本身就存在的，我們做抽樣，就是要用抽樣樣本的統計特性去估計總體的特性。也是爲了達成這個目的，我們需要隨機抽樣，這些被抽取出來的樣本，每個都是一個隨機變量，它們之間是相互獨立且同分布與總體的分佈的。反過來說，總體分佈和這些隨機變量的分佈也是同分布的，從這裏也許我們可以發掘出一些抽樣數據的意義。

抽樣分佈大致概念

我們首先要區別總體和樣本關於某些特性的不同，下面列舉三個最常見最重要的三個特徵–平均特徵、分散性特徵、分佈比例特徵：

\begin{array}{cc} 總體參數 & 樣本統計量 \\ μ & \bar{X} \\ σ & S^{2} \\ p & \hat{p} \end{array}

上表從上到下分別對應均值、方差、比例三個特性，在總體中我們管它們叫參數，在抽樣的樣本中我們叫統計量。它們有什麼區別？總體的這些參數，之所以敢叫參數，是因爲它們是有把握確定的。例如統計全體中國公民的身高，我把十三四億人的身高全測了一遍，一個不漏，來算平均值，我可以很有自信的說，這就是中國所有公民的平均身高。這樣算出來的均值，它可以爲你研究這個總體提供一個參考，因此也配得上叫參數。但樣本就不一樣所以，首先樣本容量肯定是小於而且基本上是遠小於總體容量的，比方說我們樣本容量

n = 500

好了，那麼我一次抽500個人，有可能求出來的平均身高是

175 c m

，可是我下一次抽，可能只有

160 c m

了。

所以說，總體的參數，是這個總體固有的，與生俱來的，例如給定一個總體的身高，它的平均身高也就定了，而抽樣的統計量卻是根據抽樣不同而不同的，可能有時候抽的高有時候抽的矮，是有誤差的。更進一步的，這些抽樣的統計量，如 $\bar{X}, S^{2}, \hat{p}$ ，它們還是隨機變量。例如，總體是中國全體公民，每次抽500個人算平均身高（就把每個樣本身高累加除以500），這個身高是一個隨機變量（實際上，它就是這些樣本的函數，當然會是隨機變量，因爲這些樣本都是服從整體分佈的隨機變量），這個隨機變量可能大可能小，但它服從一定的分佈。這些抽樣統計量的分佈情況，就叫做抽樣分佈。

抽樣分佈–統計量的分佈

有了以上的基礎，我們以統計量的均值和方差爲例，簡要討論它們的抽樣分佈。它們的計算式如下：

\bar{X} = \sum_{i = 1}^{n} X_{i}

S^{2} = \frac{\sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}}{(n - 1)}

樣本均值很好理解，就是把所有的樣本值相加除以樣本容量。但方差要除以

n - 1

可能就不太好理解了。既然說討論分佈，我們理所應當就應該討論一下它們的特性，例如均值，方差等。

對，就是要討論“均值的均值”。

我們說了，以測量身高爲例，可能這個均值一會兒大一會兒小，因此，單個樣本的均值是沒多大意義的。但是我們也說了這個樣本的均值是服從一定分佈的。例如我們原來的樣本服從標準正態分佈，那麼可以想象的是這個均值也一定會服從正態分佈，不過就不一定是標準的了。還是以身高爲例吧，假設我們的樣本容量是500，我們就把抽500個人測身高算一次實驗，那麼我們做多次實驗，每次實驗算平均身高，再把這些平均身高再平均一次，假設我們的實驗足夠多，最後肯定會得到跟總體一樣的平均身高吧。這其實說明了一件事，那就是

E [\bar{X}] = μ

即樣本的均值的期望等於總體的期望。可以這樣理解，對，我們抽500個人，是偶爾會抽到高一點的500個人，但總不可能每次都抽到的都高吧，同理，不可能每次抽到的都矮吧（這裏高矮相對總體期望而言），肯定是各種情況都有一點，但是，綜合起來，肯定是跟總體的期望差不多的。

那如何理解方差的計算呢？方差就是差異的大小嘛，差異就是跟期望比嘛，我們實在是沒有期望，就只好和樣本均值比咯。但是我認爲關鍵的地方是要理解爲什麼要除以一個數。我們還是抽500個人，在中國，要你在街上找1個185的人，很輕鬆吧，至少不難。要你同時找10個，平均身高185，可能有點難，但還是可能的。這時，我告訴你，給我找500個平均身高185的人……拜託，中國成年男性2010年人口普查平均身高才167……所以嘛，如果500個人，均值要爲185，是比隨機抽一個人，或10個人均值爲185的難度都要大很多對不對，因此，它肯定是更集中分佈，也就是那種本來總體就比較少的情況，在樣本的均值裏面更加小概率出現了。因此它的方差肯定是更小了，要除一個數，那麼除什麼呢，除 $n - 1$ 。爲什麼？可以看這裏
暫時沒時間寫了，遛了……

抽樣分佈的概念

隨機抽樣(Random Sampling)和隨機變量(Random Variable)

抽樣分佈大致概念

抽樣分佈–統計量的分佈

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

HEVC Test Model 第一回安裝與配置

Windows下 C++ 讀取文件時遇到的問題

C++ 常見陷阱之語法

Windows VS2017 下使用 x265 第一回 x265編譯調試的初體驗

C/C++可變參數機制

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結