標準差(Standard Deviation) 和 標準誤差(Standard Error)

轉載自:https://blog.csdn.net/tanzuozhev/article/details/50830928

本文摘自

Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 1996; 41: 498–502.

http://www.07net01.com/program/306401.html

標準差(Standard Deviation)

標準差,縮寫爲S.D., SD, 或者 s (就是爲了把人給弄暈?),是描述數據點在均值(mean)周圍聚集程度的指標。

如果把單個數據點稱爲“Xi,” 因此 “X1” 是第一個值,“X2” 是第二個值,以此類推。均值稱爲“M”。初看上去Σ(Xi-M)就可以作爲描述數據點散佈情況的指標,也就是把每個Xi與M的偏差求和。換句話講,是(單個數據點—數據點的平均)的總和。

看上去挺有邏輯性的,但是它有兩個缺點。

第一個困難是:上述定義的結果永遠是0。根據定義,高出均值的和永遠等於低於均值的和,因此它們相互抵消。可以取差值的絕對值來解決(也就是說,忽略負值的符號),但是由於各種神祕兮兮的原因,統計學家不喜歡絕對值。另外一個剔除負號的方法是取平方,因爲任何數的平方肯定是正的。所以,我們就有Σ(Xi-M)2。

另外一個問題是當我們增加數據點後此等式的結果會隨之增大。比如我們手頭有25個值的樣本,根據前面公式計算出SD是10。如果再加25個一模一樣的樣本,直覺上50個大樣本的數據點分佈情況應該不變。但是我們的公式會產生更大的SD值。好在我們可以通過除以數據點數量N來彌補這個漏洞。所以等式就變成Σ(Xi-M)2/N.

根據墨菲定律,我們解決了兩個問題,就會隨之產生兩個新問題。

第一個問題(或者我們應該稱爲第三個問題,這樣能與前面的相銜接)是用平方表達偏差。假設我們測量自閉症兒童的IQ。也許會發現IQ均值是75, 散佈程度是100 個IQ點平方。這IQ點平方又是什麼東西?不過這容易處理:用結果的平方根替代,這樣結果就與原來的測量單位一致。所以上面的例子中的散佈程度就是10個IQ點,變得更加容易理解。

最後一個問題是目前的公式是一個有偏估計,也就是說,結果總是高於或者低於真實的值。解釋稍微有點複雜,先要繞個彎。在多數情況下,我們做研究的時候,更感興趣樣本來自的總體(population)。比如,我們探查有年輕男性精神分裂症患者的家庭中的外現情緒(expressed emotion,EE)水平時,我們的興趣點是所有滿足此條件的家庭(總體),而不單單是哪些受研究的家庭。我們的工作便是從樣本中估計出總體的均值(mean)和SD。因爲研究使用的只是樣本,所以這些估計會與總體的值未知程度的偏差。理想情況下,計算SD的時候我們應當知道每個家庭的分值(score)偏離總體均值的程度,但是我們手頭只有樣本的均值。

根據定義,分值樣本偏離樣本均值的程度要小於偏離其他值,因此使用樣本均值減去分值得到的結果總是比用總體均值(還不知道)減去分值要小,公式產生的結果也就偏小(當然N很大的時候,這個偏差就可以忽略)。爲了糾正這個問題,我們會用N-1除,而不是N。總之,最後我們得到了修正的標準差的(估計)公式(稱爲樣本標準差):

標準差(Standard Deviation) 和 標準誤差(Standard Error)

順帶一下,不要直接使用此公式計算SD,會產生很多舍入誤差(rounding error)。統計學書一般會提供另外一個等同的公式,能獲得更加精確的值。

現在我們完成了所有推導工作,這意味着什麼呢?

假設數據是正態分佈的,一旦知道了均值和SD,我們便知道了分值分佈的所有情況。對於任一個正態分佈,大概2/3(精確的是68.2%)的分值會落在均值-1 SD和均值+1 SD之間,95.4%的在均值-2 SD 和均值+2 SD之間。比如,大部分研究生或者職業院校的入學考試(GRE,MCAT,LSAT和其他折磨人的手段)的分數分佈(正態)就設計成均值500,SD 100。這意味68%的人得分在400到600之間,略超過95%的人在300到700之間。使用正態曲線的概率表,我們就能準確指出低於或者高於某個分數的比例是多少。相反的,如果我們想讓5%的人淘汰掉,如果知道當年測試的均值和SD,依靠概率表,我們就能準確劃出最低分數線。

總結一下,SD告訴我們分值圍繞均值的分佈情況。現在我們轉向標準誤差(standard error)。

標準誤差(Standard Error)

前面我提到過大部分研究的目的是估計某個總體(population)的參數,比如均值和SD(標準方差)。一旦有了估計值,另外一個問題隨之而來:這個估計的精確程度如何?這問題看上去無解。我們實際上不知道確切的總體參數值,所以怎麼能評價估計值的接近程度呢?挺符合邏輯的推理。但是以前的統計學家們沒有被嚇倒,我們也不會。我們可以求助於概率:(問題轉化成)真實總體均值處於某個範圍內的概率有多大?(格言:統計意味着你不需要把話給說絕了。)

回答這個疑問的一種方法重複研究(實驗)幾百次,獲得很多均值估計。然後取這些均值估計的均值,同時也得出它的標準方差(估計)。然後用前面提到的概率表,我們可估計出一個範圍,包括90%或者95%的這些均值估計。如果每個樣本是隨機的,我們就可以安心地說真實的(總體)均值90%或者95%會落在這個範圍內。我們給這些均值估計的標準差取一個新名字:均值的標準誤差(the standard error of the mean),縮寫是SEM,或者,如果不存在混淆,直接用SE代表。

但是首先得處理一個小紕漏:重複研究(實驗)幾百次。現今做一次研究已經很困難了,不要說幾百次了(即使你能花費整個餘生來做這些實驗)。好在一向給力的統計學家們已經想出了基於單項研究(實驗)確定SE的方法。讓我們先從直觀的角度來講:是哪些因素影響了我們對估計精確性的判斷?一個明顯的因素是研究的規模。樣本規模N越大,反常數據對結果的影響就越小,我們的估計就越接近總體的均值。所以,N應該出現在計算SE公式的分母中:因爲N越大,SE越小。類似的,第二因素是:數據的波動越小,我們越相信均值估計能精確反映它們。所以,SD應該出現在計算公式的分子上:SD越大,SE越大。因此我們得出以下公式:

標準差(Standard Deviation) 和 標準誤差(Standard Error)

(爲什麼不是N? 因爲實際是我們是在用N除方差SD2,我們實際不想再用平方值,所以就又採用平方根了。)

所以,SD實際上反映的是數據點的波動情況,而SE則是均值的波動情況。

置信區間(Confidence Interval) 
前面一節,針對SE,我們提到了某個值範圍。我們有95%或者99%的信心認爲真實值就處在當中。我們稱這個值範圍爲“置信區間”,縮寫是CI。讓我們看看它是如何計算的。看正態分佈表,你會發現95%的區域處在-1.96SD 和+1.96 SD 之間。回顧到前面的GRE和MCAT的例子,分數均值是500,SD是100,這樣95%的分數處在304和696之間。如何得到這兩個值呢?首先,我們把SD乘上1.96,然後從均值中減去這部分,便得到下限304。如果加到均值上我們便得到上限696。CI也是這樣計算的,不同的地方是我們用SE替代SD。所以計算95%的CI的公式是:95%CI= 均值± ( 1.96 xSE)。

選擇SD, SE和CI 
好了,現在我們有SD, SE和CI。問題也隨之而來:什麼時候用?選擇哪個指標呢?很明顯,當我們描述研究結果時,SD是必須報告的。根據SD和樣本大小,讀者很快就能獲知SE和任意的CI。如果我們再添加上SE和CI,是不是有重複之嫌?回答是:“YES”和“NO”兼有。

本質上,我們是想告之讀者通常數據在不同樣本上是存在波動的。某一次研究上獲得的數據不會與另外一次重複研究的結果一模一樣。我們想告之的是期望的差異到底有多大:可能波動存在,但是沒有大到會修改結論,或者波動足夠大,下次重複研究可能會得出相反的結論。

某種程度上來講,這就是檢驗的顯著程度,P level 越低,結果的偶然性就越低,下次能重複出類似結果的可能性越高。但是顯著性檢驗,通常是黑白分明的:結果要麼是顯著的,要麼不是。如果兩個實驗組的均值差別只是勉強通過了P < 0.05的紅線,也經常被當成一個很穩定的結果。如果我們在圖表中加上CI,讀者就很容易確定樣本和樣本間的數據波動會有多大,但是我們選擇哪個CI呢?

我們會在圖表上加上error bar(誤差條,很難聽),通常等同於1個SE。好處是不用選擇SE或者CI了(它們指向的是一樣的東西),也無過多的計算。不幸的這種方法傳遞了很少有用信息。一個error bar (-1 SE,+1 SE )等同於68%的CI;代表我們有68%的信心真的均值(或者2個實驗組的均值的差別)會落在這個範圍內。糟糕的是,我們習慣用95%,99% 而不是68%。所以讓忘記加上SE吧,傳遞的信息量太少了,它的主要用途是計算CI。

那麼把error bar加長吧,用2個SE如何?這好像有點意思,2是1.96的不錯估計。有兩方面的好處。首先這個方法能顯示95%的CI,比68%更有意義。其次能讓我們用眼睛檢驗差別的顯著性(至少在2個實驗組的情況下是如此)。如果下面bar的頂部和上面bar的底部沒有重疊,兩個實驗組的差異必定是顯著的(5%的顯著水平)。因此我們會說,這2個組間存在顯著差別。如果我們做t-test,結果會驗證這個發現。這種方法對超過2個組的情況就不那麼精確了。因爲需要多次比較(比如,組1和組2,組2和組3,組1和組3),但是至少能給出差別的粗略指示。在表格中展示CI的時候,你應該給出確切的數值(乘以1.96而不是2)。

總結 
SD反映的是數據點圍繞均值的分佈狀況,是數據報告中必須有的指標。SE則反映了均值波動的情況,是研究重複多次後,期望得到的差異程度。SE自身不傳遞很多有用的信息,主要功能是計算95%和99%的CI。 CI是顯著性檢驗的補充,反映的是真實的均值或者均值差別的範圍。

一些期刊已把顯著性檢驗拋棄了,CI取而代之。這可能走過頭了。因爲這兩種方法各有優點,也均會被誤用。比如,一項小樣本研究可能發現控制組和實驗組間的差別顯著(0.05的顯著水平)。如果在結果展示加上CI,讀者會很容易看到CI十分寬,說明對差別的估計是很粗糙的。與之相反,大量鼓吹的被二手菸影響的人數,實際上不是一個均值估計。最好的估計是0,它有很寬的CI,報道的卻只是CI的上限。

總之,SD、顯著性檢驗,95%或者99% 的CI,均應該加在報告中,有利於讀者理解研究結果。它們均有信息量,能相互補充,而不是替代。相反,“裸”的SE的並不能告訴我們什麼信息,多佔據了一些篇幅和空間而已。

http://bbs.pinggu.org/thread-1189387-1-1.html 
最後總結:標準差還是標準誤,注意看其英文原意,就可以把握個八九不離十了。本質上二者是同一個東西(都是標準差),但前者反映的是一種偏離程度,後者反映的是一種“差錯”,即用樣本統計量去估計總體參數的時候,對其“差錯”大小(也即估計精度)的衡量。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章