[數據分析] 方差和標準差

說過了均數,很多人都會想到最近非常流行的兩句調侃“被平均”和“拖後腿”。既然我們說了均數是非常好的代表總體的一個指標,那這種感覺是怎麼來的呢?直覺錯了麼?除了故意擡槓的,這個直覺是有一定道理。

相信大部分人聽說過“正態分佈”。這個正態分佈的英語名字有兩個,一個是高斯分佈,爲的是紀念它的發現者數學天才高斯。而另外一個呢,就是Normal Distribution,也就是“正常分佈”。爲什麼這麼說呢,因爲這個分佈在真實世界裏實在是太常見了(和斐波那契數列差不多了)。這裏我們不展開正態分佈的事,以後會講。現在我們只要知道正態分佈很常見。在正態分佈中大部分的數據(如果算平均薪水的話,就是大部分人的薪水的數值)是集中在整體數據的平均數的附近的。換句話講,就是這個“均數”可以代表大部分數據。這個就是我們在統計意義上,對“平均”這個事情的信心來源,通常來說“均數”代表了大多數,而且這才叫“正常”。

好了,那麼問題來了,既然只是“集中在平均數附近”,就說明並不是所有數據都正好等於均數(廢話)。超過大家沒意見,少了就有人覺得被平均了。這裏就可以給出一個概念,離均差。顧名思義,就是每個數據離開均數的差距,公式就是做減法。若x代表數據,\bar{x} 表示均數,那麼離均差就是x-\bar{x}

一個數據如此,全部數據呢?最簡單的想法就是,把離均差都加起來唄。問題又來了,稍微算一下就知道離均差有正有負。如果簡單地加總,那麼答案永遠是零,就失去的比較不同總體(比如上海和北京的平均薪水)的意義,零等於零麼。

這裏需要進行一下數學上的處理,把離均差先平方以後再加總。一來是方便,平方一般都會算的;另外呢,平方也不影響單調性。通俗的說,就是3比2大,那麼3的平方9也比2的平方4大,這樣就不影響比較了。於是公式就成了:

\sum_{1}^n (x_{n}-\bar{x} )^2

問題又來了。不同的總體擁有的數據量是不同的,比如北京和上海的在職人數不同,那麼人數多的總體就有可能怎麼都比人數少的那個大。北京上海還不明顯,你要北京和某四線城市比呢?對吧。這時,我們肯定會很自然的想,那麼再除以這個城市人數不就可以了?對的,所以式子就變成了:

\sigma ^2= \sum_{1}^n (x_{n}-\bar{x} )^2 /n

這裏直接把方差的希臘字母放上去了,因爲這個公式就是方差的定義公式。通過考察每個數據離開均數的差距,我們可以描述這個“被研究的總體”到底有多少人是“被平均”了,統計上說就是一個數據集的離散程度有多少。

好了,問題又來了。(這麼多問題!)平方僅僅是個數學處理,在現實生活中一般沒有啥意義,薪水的平方啥意思?又不能領了薪水先平方下再去花(哈哈哈)。所以,在統計指導意義上,還是再把方差求平方根。當然一般只取正值,或者叫絕對值,但實際上表達的是正負都可以。這個平方根就是標準差,\sigma

\sigma =\sqrt{\sigma ^2}

如果有人對前幾年大流行的精益管理還有映像的話,這個西格瑪就是6西格瑪裏的西格瑪。精益的six sigma就是用到了正態分佈的雙側檢驗,以後再講。

難得最近有空,又可以愉快滴寫作了。好了,今天到這裏。下次考慮討論參數估計。

[返回目錄](https://www.jianshu.com/p/e840e58deb4f)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章