商務統計_8 數值描述度量 - 集中趨勢

原創

Fergus-Firechan

2020-06-14 02:08

集中趨勢
- 衆數 $M_o$
- 中位數 $M_e$
- 均值（算術、加權、幾何 $\bar{x}_G$ 、切尾）
- 衆數 & 中位數 & 均值的關係

頻數分佈僅對數據作了簡單的概括，丟失了大量信息。統計圖能直觀展示數據，但需要更有說服力的信息支持，因此需要更多的統計方法。

集中趨勢

1.衆數（單衆、雙衆、多衆、無衆）

一組數據中出現次數最多的變量值，用 $M_o$ 表示。
通常用來近似反映社會經濟現象的一般水平。如某次考試成績最集中的水平、城鎮居民最普遍的生活水平、當前最流行的潮流等。

計算衆數

未分組數據 & 分類頻數分佈表
排序、觀察/統計出現次數量最多的
分組頻數分佈表
常用的兩種計算方法：
- $M_o = \frac{L + U}{2}，L爲衆數所在組下限，U爲上限$ 。
- $M_o = L + \frac{f_m - f_{m-1}}{(f_m - f_{m-1}) + (f_m - f_{m+1})} * i$ $i爲組距，f_m爲衆數所在組頻數，f_{m-1}爲上一組頻數，f_{m+1}爲下一組頻數$ 。

說明：

衆數是唯一可以研究分類數據集中趨勢的統計量
主要用於分類數據，如國家的個人所得稅的徵收政策制定、房地產的房屋格局規劃、農貿市場商品價格等
衆數能傳遞的信息量非常有限，比如通過衆數可了知道一個值出現的次數最多，但多的程度無法知道（在衆數眼裏，100：1 & 100：99是一樣的）
適合數據較多時使用
圖表中容易獲取變量的衆數

2.中位數

一組數據排序後，中間的那個值，用 $M_e$ 表示。

未分組數據 & 分類頻數分佈表
先排序，然後計算中位數的位置： $\frac{n+1}{2}$ 。
eg.已知一個班級的年齡頻數分佈表如下，計算中位數：

$M_e的位置=\frac{50+1}{2}=25.5$
觀察累計次數可知中位數 $M_e=19$ .
分組頻數分佈表
常用的一種估算方式： $M_e=L+\frac{\frac{n}{2}-F}{f_m};$ $L爲中位數組下限，n爲總頻數，F爲中位數所在組以上各組累計頻數，f_m爲中位數所在組的頻數，i爲組距。$
eg.

$M_e=100+\frac{\frac{30}{2}-10}{13}*10=103.8$

說明：

唯一，每組數據只有一個
計算量小，相對於平均值 & 衆數
穩定，不易受極端值影響：
- 當一組數據分佈不對稱時，使用中位數更恰當
- 當一組數據中大量重複某一值時，中位數不一定準確
- 對極端值不敏感，有時是缺點
中位數與數值之差的絕對值之和最小（ $\displaystyle\sum^{n}_{i\to0}|xi-M_e|$ ）
除了中間值，未用到其它值
不能用於定類數據

3.平均值

3.1 簡單算術平均

通常說的均值， $均值=\frac{一組數據中所有數值之和}{數值總數}$ 。
- 總體均值
$μ=\frac{x_1+x_2+...+x_N}{N}=\frac{1}{N}\displaystyle\sum^{N}_{i=1}{x_i}$
- 樣本均值
$\bar{x}=\frac{x_1+x_2+...+x_n}{n}=\frac{1}{n}\displaystyle\sum^{n}_{i=1}{x_i}$

說明

最常用的反映集中程度的測試值
唯一，一組數據只有一個
利用了所有觀測值，相比於衆數、中位數會獲得更多信息。
易受極端值影響
只能用於定距、定比數據
數學性質
- 各變量值與平均值的離差之和爲0
  $\displaystyle\sum^{n}_{i\to0}{(x_i-\bar{x})}$
- 各變量值與平均值的離差平方和等於最小值
  $\displaystyle\sum^{n}_{i\to0}{(x_i-\bar{x})^2}$

3.2 加權算術平均

據分組整理的數據來計算平均值。

分類頻數分佈表
$加權算術平均=\frac{\sum各組變量值*頻數}{\sum頻數}$
分組頻數分佈表
$加權算術平均=\frac{\sum各組組中值*頻數}{\sum頻數}$

說明：

簡單算術平均值是加權算術平均值的一個特例，當各組權數相等時。
當變量值較大，頻數較大時，加權平均值較大；反之，加權平均值較小。算術平均值只與變量值的大小有關，加權算術平均值與變量值的大小、變量值出現的次數都有關。

3.3 幾何平均

n個變量值累乘的n次方根，表示爲 $\bar{X}_G$ 。
應用於求解平均比率和平均速度。
據掌握的數據不同分爲：

簡單幾何平均
據未分組的數據計算幾何平均數： $\bar{X}_G=\sqrt[n]{\displaystyle\prod^{n}_{i\to0}{x_i}}$
eg.某產品需要經過6道工序，每道工序的合格率爲98%、91%、93%、98%、98%、91%，求6道工序的平均合格率：
$\bar{X}_G=\sqrt[6]{98\%*91\%*93\%*98\%*98\%*91\%}$
加權幾何平均
據頻數分佈表計算幾何平均數： $\bar{X}_G=\sqrt[\sum{f}]{\displaystyle\prod^{n}_{i\to0}{x_i^{f_i}}}$
eg.

最後還原加權幾何平均增長率：109.45% - 100% = 9.45%。

3.4 切尾平均

去除兩端極值後的算術平均值。
$\bar{x}=\frac{x_{(na+1)}+x_{(na+2)}+...+x_{(n-na)}}{n-2na};n爲觀察值個數，a∈[0, \frac{1}{2})$

當a=0，切尾均值=算術均值
當a=1/2，切尾均值= $M_e$

說明：

綜合了均值 & 中位數的優點，廣泛應用於體育比賽、電視獎賽等需要進行綜合評估的競賽項目。

4.衆數、中位數和平均值的關係

對於單峯的、對稱的分佈來說，衆數=中位數=均值，即 $M_o=M_e=\bar{x}$ 。

如果數據屬於偏態分佈：

正偏（右偏）
數據集中在左邊，但它有少量的極大值，使得右邊拖着長長的尾巴。
極大值拉動均值右移，使均值最大；而數據集中在左邊，使衆數最小，即 $M_o<Me<\bar{x}$ 。
負偏（左偏）
數據集中在右側，但有少量的極小值，使得左側拖着長長的尾巴。
極小值拉動均值左移，使得均值最小；數據集中在右側，使得衆數最大，即 $\bar{x}<M_e<M_o$ 。

說明：
衆數，一組數據分佈的峯值，位置代表值。衆數可以有0個、1個、2個、多個。
- 優：易於理解，不受極端值影響。當數據具有明顯集中趨勢（特別是偏態），代表性優於算術平均數。
中位數，一組數據中間位置上的值，位置代表值。
- 優：不受極值影響。偏態分佈時，代表性優於算術平均值。
算術平均數，由全部數據計算而得，具有良好的數學性質，實際中用得最多。
- 缺：易受極值影響，偏態分佈時，代表性較差。
- 調和平均數，適用於特殊數據，不能直接計算算術平均數的數據。
- 幾何平均數，適用於特殊數據，計算比例數據的平均數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

商務統計_8 數值描述度量 - 集中趨勢

集中趨勢

1.衆數（單衆、雙衆、多衆、無衆）

2.中位數

3.平均值

3.1 簡單算術平均

3.2 加權算術平均

3.3 幾何平均

3.4 切尾平均

4.衆數、中位數和平均值的關係

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

商務統計_8 數值描述度量 - 集中趨勢

商務統計_7 用圖表演示數據 - 定量數據

Java_2 面向對象

小結 pandas 時間序列

xlwings - 報表自動換算、彙總

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結