[數據分析] 也說說平均數

大凡說起數據分析,很多人就會想起平均數。爲什麼平均數如此深入人心?它的重要性又是什麼呢?

從釋義上講,漢字的“平均”有按份兒均勻計算的含義。統計學上的平均數其實有好幾種不同的方式(大家應該能記得什麼叫“統計口徑”吧),我們耳熟能詳的通常是“算術平均數”。舉個例子,如果有4個系統支持工程師,甲乙丙丁,每個人的每天的解決問題的數量如下表。

系統工程師 每天解決問題的數量
17
23
19
27

表1 系統工程師小分隊每日解決問題的數量(分佈)

根據上表,這個小小系統支持團隊的平均每天每人的解決問題數量是:
(17+23+19+27)/(1+1+1+1)= 21.5(個)
因爲每個工程師的表現不同,我們不能單純拿出某個工程師來代表這個團隊的表現。於是,平均數就是一個非常好的用來描述“團隊”的指標。如果用統計術語來說,甲工程師的17個問題是“個體”的特徵,21.5個問題則是“整體”的特徵。平均數最直觀的一個作用就是來對某個數據集的“整體情況”做一個表述。

上例中,每個工程師解答的問題是同質同權的,也就是說每個工程師在解決問題的過程中的“權重”是一樣的,並不存在甲解決的問題價值更加大一點。但實際情況通常會更加複雜,假定問題因有難易不同,給客戶帶來的價值也不同。那麼我們怎麼評價這個團隊的一般表現?因爲這次不同問題的價值不同,也就是說“權重”不同了。在IT的世界裏,按常規,我們一般把問題分成4個等級。爲方便起見,價值就是1、2、3、4。

1 2 3 4 小計
1 1 3 12 17
4 7 5 7 23
11 0 0 8 19
20 2 4 1 27

表2 系統工程師小分隊解決問題數量按不同價值(分佈)

有了權重再來看看甲和丁的表現:
甲:1x1+1x2+3x3+12x4 = 60
丁:20x1+2x2+4x3+1x4 = 40
雖然,丁每天要多解10個問題,但是從價值上來說竟然還是甲要多出20分。憑直覺就能夠猜出來甲是經驗豐富的老工程師經常是被要求解決一些棘手的問題,而丁很可能是剛剛入行的新手,主要處理一些比較簡單但多發的問題。

插播一句。這個就是通過數字(或者更精確地說,用統計)來理解現實世界的一個例子,以後還會常常提到。畢竟,不解決實際問題,思想和技術就沒有什麼意義了。

那麼,在有權重下的平均數,就是加權平均數。沿用表2,加權平均數爲:
乙:4x1+7x2+5x3+7x4 = 61
丙:11x1+0x2+0x3+8x4 = 43
(60+61+43+40)/(1+1+1+1)= 51(分)
注意哦,這裏單位改成了“分”,因爲算術平均數是同質平均,只要單純計算即可,而加權平均是有權重的,有時候要通過“某種衡量”來表達“量化”。

通過這兩個平均數,可以看到同一個小分隊,如果從不同的角度去了解情況,會得出一些完全不同的結論。單純看解決問題的算術平均數,那麼甲就是個典型的拖後腿的傢伙了。再細緻一些,瞭解到了不同問題的本質不同時,甲作爲有經驗的工程師的價值就體現出來了。

插播第二句。現實中,理解事情本身很重要,正確的理解纔能有效利用數字。當然,利用統計來檢驗某些說法的有效性也是很有意思的話題。

平均數作爲一個統計指標,它更深層次的意義還體現在“迴歸”上。這個話題有點複雜需要逐漸展開。

光有平均數是不是可以?當然不行,不然大家怎麼老覺得自己“被平均”了呢?下週我們來聊聊方差與標準差。

返回目錄

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章