目錄
- 集中趨勢
- 衆數Mo
- 中位數Me
- 均值(算術、加權、幾何xˉG、切尾)
- 衆數 & 中位數 & 均值的關係
頻數分佈僅對數據作了簡單的概括,丟失了大量信息。統計圖能直觀展示數據,但需要更有說服力的信息支持,因此需要更多的統計方法。
集中趨勢
1.衆數(單衆、雙衆、多衆、無衆)
一組數據中出現次數最多的變量值,用Mo表示。
通常用來近似反映社會經濟現象的一般水平。如某次考試成績最集中的水平、城鎮居民最普遍的生活水平、當前最流行的潮流等。
計算衆數
- 未分組數據 & 分類頻數分佈表
排序、觀察/統計出現次數量最多的
- 分組頻數分佈表
常用的兩種計算方法:
- Mo=2L+U,L爲衆數所在組下限,U爲上限。
- Mo=L+(fm−fm−1)+(fm−fm+1)fm−fm−1∗ii爲組距,fm爲衆數所在組頻數,fm−1爲上一組頻數,fm+1爲下一組頻數。
說明:
- 衆數是唯一可以研究分類數據集中趨勢的統計量
- 主要用於分類數據,如國家的個人所得稅的徵收政策制定、房地產的房屋格局規劃、農貿市場商品價格等
- 衆數能傳遞的信息量非常有限,比如通過衆數可了知道一個值出現的次數最多,但多的程度無法知道(在衆數眼裏,100:1 & 100:99是一樣的)
- 適合數據較多時使用
- 圖表中容易獲取變量的衆數
2.中位數
一組數據排序後,中間的那個值,用Me表示。
- 未分組數據 & 分類頻數分佈表
先排序,然後計算中位數的位置:2n+1。
eg.已知一個班級的年齡頻數分佈表如下,計算中位數:
Me的位置=250+1=25.5
觀察累計次數可知中位數Me=19.
- 分組頻數分佈表
常用的一種估算方式:Me=L+fm2n−F;L爲中位數組下限,n爲總頻數,F爲中位數所在組以上各組累計頻數,fm爲中位數所在組的頻數,i爲組距。
eg.
Me=100+13230−10∗10=103.8
說明:
- 唯一,每組數據只有一個
- 計算量小,相對於平均值 & 衆數
- 穩定,不易受極端值影響:
- 當一組數據分佈不對稱時,使用中位數更恰當
- 當一組數據中大量重複某一值時,中位數不一定準確
- 對極端值不敏感,有時是缺點
- 中位數與數值之差的絕對值之和最小(i→0∑n∣xi−Me∣)
- 除了中間值,未用到其它值
- 不能用於定類數據
3.平均值
3.1 簡單算術平均
通常說的均值,均值=數值總數一組數據中所有數值之和。
- 總體均值
μ=Nx1+x2+...+xN=N1i=1∑Nxi
- 樣本均值
xˉ=nx1+x2+...+xn=n1i=1∑nxi
說明
- 最常用的反映集中程度的測試值
- 唯一,一組數據只有一個
- 利用了所有觀測值,相比於衆數、中位數會獲得更多信息。
- 易受極端值影響
- 只能用於定距、定比數據
- 數學性質
- 各變量值與平均值的離差之和爲0
i→0∑n(xi−xˉ)
- 各變量值與平均值的離差平方和等於最小值
i→0∑n(xi−xˉ)2
3.2 加權算術平均
據分組整理的數據來計算平均值。
- 分類頻數分佈表
加權算術平均=∑頻數∑各組變量值∗頻數
- 分組頻數分佈表
加權算術平均=∑頻數∑各組組中值∗頻數
說明:
- 簡單算術平均值是加權算術平均值的一個特例,當各組權數相等時。
- 當變量值較大,頻數較大時,加權平均值較大;反之,加權平均值較小。算術平均值只與變量值的大小有關,加權算術平均值與變量值的大小、變量值出現的次數都有關。
3.3 幾何平均
n個變量值累乘的n次方根,表示爲XˉG。
應用於求解平均比率和平均速度。
據掌握的數據不同分爲:
- 簡單幾何平均
據未分組的數據計算幾何平均數:XˉG=ni→0∏nxi
eg.某產品需要經過6道工序,每道工序的合格率爲98%、91%、93%、98%、98%、91%,求6道工序的平均合格率:
XˉG=698%∗91%∗93%∗98%∗98%∗91%
- 加權幾何平均
據頻數分佈表計算幾何平均數:XˉG=∑fi→0∏nxifi
eg.
最後還原加權幾何平均增長率:109.45% - 100% = 9.45%。
3.4 切尾平均
去除兩端極值後的算術平均值。
xˉ=n−2nax(na+1)+x(na+2)+...+x(n−na);n爲觀察值個數,a∈[0,21)
- 當a=0,切尾均值=算術均值
- 當a=1/2,切尾均值=Me
說明:
- 綜合了均值 & 中位數的優點,廣泛應用於體育比賽、電視獎賽等需要進行綜合評估的競賽項目。
4.衆數、中位數和平均值的關係
對於單峯的、對稱的分佈來說,衆數=中位數=均值,即Mo=Me=xˉ。
如果數據屬於偏態分佈:
- 正偏(右偏)
數據集中在左邊,但它有少量的極大值,使得右邊拖着長長的尾巴。
極大值拉動均值右移,使均值最大;而數據集中在左邊,使衆數最小,即Mo<Me<xˉ。
- 負偏(左偏)
數據集中在右側,但有少量的極小值,使得左側拖着長長的尾巴。
極小值拉動均值左移,使得均值最小;數據集中在右側,使得衆數最大,即xˉ<Me<Mo。
說明:
- 衆數,一組數據分佈的峯值,位置代表值。衆數可以有0個、1個、2個、多個。
- 優:易於理解,不受極端值影響。當數據具有明顯集中趨勢(特別是偏態),代表性優於算術平均數。
- 中位數,一組數據中間位置上的值,位置代表值。
- 優:不受極值影響。偏態分佈時,代表性優於算術平均值。
- 算術平均數,由全部數據計算而得,具有良好的數學性質,實際中用得最多。
- 缺:易受極值影響,偏態分佈時,代表性較差。
- 調和平均數,適用於特殊數據,不能直接計算算術平均數的數據。
- 幾何平均數,適用於特殊數據,計算比例數據的平均數。