商務統計_8 數值描述度量 - 集中趨勢

目錄

  • 集中趨勢
    • 衆數MoM_o
    • 中位數MeM_e
    • 均值(算術、加權、幾何xˉG\bar{x}_G、切尾)
    • 衆數 & 中位數 & 均值的關係


頻數分佈僅對數據作了簡單的概括,丟失了大量信息。統計圖能直觀展示數據,但需要更有說服力的信息支持,因此需要更多的統計方法。

集中趨勢

1.衆數(單衆、雙衆、多衆、無衆)

一組數據中出現次數最多的變量值,用MoM_o表示。
通常用來近似反映社會經濟現象的一般水平。如某次考試成績最集中的水平、城鎮居民最普遍的生活水平、當前最流行的潮流等。
在這裏插入圖片描述
計算衆數

  • 未分組數據 & 分類頻數分佈表
    排序、觀察/統計出現次數量最多的
  • 分組頻數分佈表
    常用的兩種計算方法:
    • Mo=L+U2LUM_o = \frac{L + U}{2},L爲衆數所在組下限,U爲上限
    • Mo=L+fmfm1(fmfm1)+(fmfm+1)iM_o = L + \frac{f_m - f_{m-1}}{(f_m - f_{m-1}) + (f_m - f_{m+1})} * iifmfm1fm+1i爲組距,f_m爲衆數所在組頻數,f_{m-1}爲上一組頻數,f_{m+1}爲下一組頻數

說明:

  • 衆數是唯一可以研究分類數據集中趨勢的統計量
  • 主要用於分類數據,如國家的個人所得稅的徵收政策制定、房地產的房屋格局規劃、農貿市場商品價格等
  • 衆數能傳遞的信息量非常有限,比如通過衆數可了知道一個值出現的次數最多,但多的程度無法知道(在衆數眼裏,100:1 & 100:99是一樣的)
  • 適合數據較多時使用
  • 圖表中容易獲取變量的衆數

2.中位數

一組數據排序後,中間的那個值,用MeM_e表示。

  • 未分組數據 & 分類頻數分佈表
    先排序,然後計算中位數的位置:n+12\frac{n+1}{2}
    eg.已知一個班級的年齡頻數分佈表如下,計算中位數:
    在這裏插入圖片描述
    Me=50+12=25.5M_e的位置=\frac{50+1}{2}=25.5
    觀察累計次數可知中位數Me=19M_e=19.
  • 分組頻數分佈表
    常用的一種估算方式:Me=L+n2Ffm;M_e=L+\frac{\frac{n}{2}-F}{f_m};LnFfmiL爲中位數組下限,n爲總頻數,F爲中位數所在組以上各組累計頻數,f_m爲中位數所在組的頻數,i爲組距。
    eg.
    在這裏插入圖片描述
    Me=100+302101310=103.8M_e=100+\frac{\frac{30}{2}-10}{13}*10=103.8

說明:

  • 唯一,每組數據只有一個
  • 計算量小,相對於平均值 & 衆數
  • 穩定,不易受極端值影響:
    • 當一組數據分佈不對稱時,使用中位數更恰當
    • 當一組數據中大量重複某一值時,中位數不一定準確
    • 對極端值不敏感,有時是缺點
  • 中位數與數值之差的絕對值之和最小(i0nxiMe\displaystyle\sum^{n}_{i\to0}|xi-M_e|
  • 除了中間值,未用到其它值
  • 不能用於定類數據

3.平均值

3.1 簡單算術平均

通常說的均值,=均值=\frac{一組數據中所有數值之和}{數值總數}
- 總體均值
μ=x1+x2+...+xNN=1Ni=1Nxiμ=\frac{x_1+x_2+...+x_N}{N}=\frac{1}{N}\displaystyle\sum^{N}_{i=1}{x_i}
- 樣本均值
xˉ=x1+x2+...+xnn=1ni=1nxi\bar{x}=\frac{x_1+x_2+...+x_n}{n}=\frac{1}{n}\displaystyle\sum^{n}_{i=1}{x_i}

說明

  • 最常用的反映集中程度的測試值
  • 唯一,一組數據只有一個
  • 利用了所有觀測值,相比於衆數、中位數會獲得更多信息。
  • 易受極端值影響
  • 只能用於定距、定比數據
  • 數學性質
    • 各變量值與平均值的離差之和爲0
      i0n(xixˉ)\displaystyle\sum^{n}_{i\to0}{(x_i-\bar{x})}
    • 各變量值與平均值的離差平方和等於最小值
      i0n(xixˉ)2\displaystyle\sum^{n}_{i\to0}{(x_i-\bar{x})^2}
3.2 加權算術平均

據分組整理的數據來計算平均值。

  • 分類頻數分佈表
    =加權算術平均=\frac{\sum各組變量值*頻數}{\sum頻數}
  • 分組頻數分佈表
    =加權算術平均=\frac{\sum各組組中值*頻數}{\sum頻數}

說明:

  • 簡單算術平均值是加權算術平均值的一個特例,當各組權數相等時。
  • 當變量值較大,頻數較大時,加權平均值較大;反之,加權平均值較小。算術平均值只與變量值的大小有關,加權算術平均值與變量值的大小、變量值出現的次數都有關
3.3 幾何平均

n個變量值累乘的n次方根,表示爲XˉG\bar{X}_G
應用於求解平均比率和平均速度
據掌握的數據不同分爲:

  • 簡單幾何平均
    據未分組的數據計算幾何平均數:XˉG=i0nxin\bar{X}_G=\sqrt[n]{\displaystyle\prod^{n}_{i\to0}{x_i}}
    eg.某產品需要經過6道工序,每道工序的合格率爲98%、91%、93%、98%、98%、91%,求6道工序的平均合格率:
    XˉG=98%91%93%98%98%91%6\bar{X}_G=\sqrt[6]{98\%*91\%*93\%*98\%*98\%*91\%}
  • 加權幾何平均
    據頻數分佈表計算幾何平均數:XˉG=i0nxifif\bar{X}_G=\sqrt[\sum{f}]{\displaystyle\prod^{n}_{i\to0}{x_i^{f_i}}}
    eg.
    在這裏插入圖片描述
    在這裏插入圖片描述
    最後還原加權幾何平均增長率:109.45% - 100% = 9.45%。
3.4 切尾平均

去除兩端極值後的算術平均值。
xˉ=x(na+1)+x(na+2)+...+x(nna)n2na;na[0,12)\bar{x}=\frac{x_{(na+1)}+x_{(na+2)}+...+x_{(n-na)}}{n-2na};n爲觀察值個數,a∈[0, \frac{1}{2})

  • 當a=0,切尾均值=算術均值
  • 當a=1/2,切尾均值=MeM_e

說明:

  • 綜合了均值 & 中位數的優點,廣泛應用於體育比賽、電視獎賽等需要進行綜合評估的競賽項目。

4.衆數、中位數和平均值的關係

對於單峯的、對稱的分佈來說,衆數=中位數=均值,即Mo=Me=xˉM_o=M_e=\bar{x}
在這裏插入圖片描述
如果數據屬於偏態分佈

  • 正偏(右偏)
    數據集中在左邊,但它有少量的極大值,使得右邊拖着長長的尾巴。
    極大值拉動均值右移,使均值最大;而數據集中在左邊,使衆數最小,即Mo<Me<xˉM_o<Me<\bar{x}
    在這裏插入圖片描述
  • 負偏(左偏)
    數據集中在右側,但有少量的極小值,使得左側拖着長長的尾巴。
    極小值拉動均值左移,使得均值最小;數據集中在右側,使得衆數最大,即xˉ<Me<Mo\bar{x}<M_e<M_o
    在這裏插入圖片描述
    說明:
  • 衆數,一組數據分佈的峯值,位置代表值。衆數可以有0個、1個、2個、多個。
    • 優:易於理解,不受極端值影響。當數據具有明顯集中趨勢(特別是偏態),代表性優於算術平均數。
  • 中位數,一組數據中間位置上的值,位置代表值。
    • 優:不受極值影響。偏態分佈時,代表性優於算術平均值。
  • 算術平均數,由全部數據計算而得,具有良好的數學性質,實際中用得最多。
    • 缺:易受極值影響,偏態分佈時,代表性較差。
    • 調和平均數,適用於特殊數據,不能直接計算算術平均數的數據。
    • 幾何平均數,適用於特殊數據,計算比例數據的平均數。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章