[數據分析] 方差和標準差

原創

2020-06-14 13:30

說過了均數，很多人都會想到最近非常流行的兩句調侃“被平均”和“拖後腿”。既然我們說了均數是非常好的代表總體的一個指標，那這種感覺是怎麼來的呢？直覺錯了麼？除了故意擡槓的，這個直覺是有一定道理。

相信大部分人聽說過“正態分佈”。這個正態分佈的英語名字有兩個，一個是高斯分佈，爲的是紀念它的發現者數學天才高斯。而另外一個呢，就是Normal Distribution，也就是“正常分佈”。爲什麼這麼說呢，因爲這個分佈在真實世界裏實在是太常見了（和斐波那契數列差不多了）。這裏我們不展開正態分佈的事，以後會講。現在我們只要知道正態分佈很常見。在正態分佈中大部分的數據（如果算平均薪水的話，就是大部分人的薪水的數值）是集中在整體數據的平均數的附近的。換句話講，就是這個“均數”可以代表大部分數據。這個就是我們在統計意義上，對“平均”這個事情的信心來源，通常來說“均數”代表了大多數，而且這才叫“正常”。

好了，那麼問題來了，既然只是“集中在平均數附近”，就說明並不是所有數據都正好等於均數（廢話）。超過大家沒意見，少了就有人覺得被平均了。這裏就可以給出一個概念，離均差。顧名思義，就是每個數據離開均數的差距，公式就是做減法。若 $x$ 代表數據， $\bar{x}$ 表示均數，那麼離均差就是 $x-\bar{x}$ 。

一個數據如此，全部數據呢？最簡單的想法就是，把離均差都加起來唄。問題又來了，稍微算一下就知道離均差有正有負。如果簡單地加總，那麼答案永遠是零，就失去的比較不同總體（比如上海和北京的平均薪水）的意義，零等於零麼。

這裏需要進行一下數學上的處理，把離均差先平方以後再加總。一來是方便，平方一般都會算的；另外呢，平方也不影響單調性。通俗的說，就是3比2大，那麼3的平方9也比2的平方4大，這樣就不影響比較了。於是公式就成了：

$\sum_{1}^n (x_{n}-\bar{x} )^2$

問題又來了。不同的總體擁有的數據量是不同的，比如北京和上海的在職人數不同，那麼人數多的總體就有可能怎麼都比人數少的那個大。北京上海還不明顯，你要北京和某四線城市比呢？對吧。這時，我們肯定會很自然的想，那麼再除以這個城市人數不就可以了？對的，所以式子就變成了：

$\sigma ^2= \sum_{1}^n (x_{n}-\bar{x} )^2 /n$

這裏直接把方差的希臘字母放上去了，因爲這個公式就是方差的定義公式。通過考察每個數據離開均數的差距，我們可以描述這個“被研究的總體”到底有多少人是“被平均”了，統計上說就是一個數據集的離散程度有多少。

好了，問題又來了。（這麼多問題！）平方僅僅是個數學處理，在現實生活中一般沒有啥意義，薪水的平方啥意思？又不能領了薪水先平方下再去花（哈哈哈）。所以，在統計指導意義上，還是再把方差求平方根。當然一般只取正值，或者叫絕對值，但實際上表達的是正負都可以。這個平方根就是標準差， $\sigma$ 。

$\sigma =\sqrt{\sigma ^2}$

如果有人對前幾年大流行的精益管理還有映像的話，這個西格瑪就是6西格瑪裏的西格瑪。精益的six sigma就是用到了正態分佈的雙側檢驗，以後再講。

難得最近有空，又可以愉快滴寫作了。好了，今天到這裏。下次考慮討論參數估計。

[返回目錄](https://www.jianshu.com/p/e840e58deb4f)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[數據分析] 方差和標準差

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

[數據分析] 參數和統計量

[數據分析] 方差和標準差

[數據分析] 樣本、抽樣和整體，也說說對統計的理解

複雜

[數據分析] 緣起與目錄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結