統計學:描述性統計分析

本文是對《Excel統計分析與應用》第3章的內容梳理,後續將會在此基礎上進行知識應用拓展的補充。

1.概述

拿到一份數據,怎樣去把握這份數據的分佈特徵呢?首先需要知道有哪些統計指標可以反映數據的分佈特徵。

因此,可以從以下3個方面對數據分佈的特徵進行度量。

  1. 分佈的集中趨勢:反映各個數據點向中心值靠攏或聚集的程度。
  2. 分佈的離散程度:反映各個數據點遠離中心值的趨勢。
  3. 分佈的形狀:反映數據分佈的偏度和峯度。

在描述統計中,常用的統計指標有:均值、方差、標準差、中位數、衆數、峯度、偏度等。

2.描述集中與離散趨勢的統計量

集中趨勢

  • 指一組數據向其中心值靠攏的程度。
  • 度量集中趨勢,實際上是在尋找數據的中心值(代表值),不同類型的數據有不同的集中趨勢度量值。
  • 描述集中趨勢的統計指標:算術平均值,幾何平均值,調和平均值,衆數,中位數等。

離散趨勢

  • 指各個數據點遠離其中心值的程度。
  • 不同類型的數據有不同的離散程度度量值。
  • 描述離散趨勢的統計指標:方差,標準差。

算術平均值

算術平均值:

  • 均值,一組數據相加後除以數據個數得到的數值。
  • 適用於數值型數據。
  • 對極值敏感。

算術平均值的計算
1.未分組數據-簡單算術平均值
假設一組樣本數據爲x1x_1x2x_2,……,xnx_n,樣本量爲n,則簡單算術平均值的計算公式爲:xˉ=x1+x2++xnn=i=1nxin\bar x=\frac{x_1+x_2+……+x_n}{n}=\frac{\sum_{i=1}^ n{x_i}}{n}

在Excel中,用AVERAGE函數計算簡單算術平均值。
函數表示:=AVERAGE(number1,number2,……)
參數:

  • 參數是樣本值,個數小於30
  • number可以是數字、名稱、數組、包含數字的引用
  • 注意:AVERAGE函數會忽略空白、邏輯值和文本單元格

2.分組數據-加權算術平均值
假設原始數據被劃分爲k個組,每個組的種植分別用M1M_1M2M_2,……,MkM_k表示,每組的數據值出現的頻數分別用f1f_1f2f_2,……,fkf_k表示,n爲樣本量,則加權平均值的計算公式爲:xˉ=M1f1+M2f2++Mkfkf1+f2++fk=i=1kMifin\bar x = \frac{M_1f_1+M_2f_2+……+M_kf_k}{f_1+f_2+……+f_k} = \frac{\sum_{i=1}^k{{M_i}{f_i}}}{n}

在Excel中,用SUM函數計算加權算術平均值。

幾何平均值

幾何平均值:

  • 是n個變量值乘積的n次方根。
  • 適用於對比率數據的平均,計算平均增長率。
  • 一般用G表示,計算公式如下:Gm=x1×x2××xnn=i=1nxin G_m = \sqrt[n]{x_1 \times x_2 \times …… \times x_n} = \sqrt[n]{\prod_{i=1}^n x_i}

幾何平均值的特點:

  • 對極值不那麼敏感。
  • 如果變量值有負值,則計算結果會變成負數或虛數。
  • 只適用於具有等比或近似等比關係的數據。
  • 幾何平均值的對數是各變量值對數的算術平均值。

在Excel中,用GEOMEAN函數計算。
公式表示:=GEOMEAN(number1,number2,……)
參數:number可用單個數組或區域。

調和平均值

調和平均值:

  • 也叫倒數平均值。
  • 是各變量值倒數的算術平均值的倒數。
  • 一般用H表示,計算公式如下:H=11x1+1x2++1xnn=nj=1kxj H = \frac{1}{\frac{\frac{1}{x_1}+\frac{1}{x_2}+……+\frac{1}{x_n}}{n}} = \frac{n}{\sum_{j=1}^k{x_j}}

調和平均值的特點:

  • 對極值敏感,且受極小值的影響更大。
  • 只要有一個變量值爲0,就不能計算調和平均值。
  • 當組距有開口時,調和平均值不可靠。
  • 應用範圍較小。

在Excel中,用HARMEAN函數計算。
函數表示:=HARMEAN(number1,number2,……)
參數:number可用單個數組或區域。

衆數

衆數:

  • 一組數據中,出現次數最多的變量值。
  • 適用於數據量較多時使用,主要用於分類數據,也可以用於順序數據和數值型數據。
  • 一組數據可以有多個衆數,也可以沒有。
  • 衆數具有明顯集中趨勢,一組數據分佈的最高峯點所對應的數值就是衆數。
  • 對極值不敏感。

衆數特點:

  • 不受極值影響。
  • 當分組數據沒有任何一組的次數佔多數時,說明分組數據中沒有明顯的集中趨勢,這近似於均勻分佈,那麼該次的分組數據沒有衆數。

衆數的計算
1.非分組數據
方法:找出頻數最多的變量值即可。

在Excel中,用MODE函數計算。
函數表示:=MODE(number1,number2,……)
參數:number可用單個數組或區域。

2.分組數據
方法:先找出頻數最多的一組作爲衆數組,然後用公式確定衆數。

對於分組數據,衆數的值與其相鄰兩組的頻數分佈有關係。假設衆數組的頻數爲fmf_m,衆數前一組的頻數爲f1f_{-1},衆數後一組的頻數爲f+1f_{+1}

  • f1=f+1f_{-1} = f_{+1}時,衆數組的中值即衆數。
  • f1<f+1f_{-1} < f_{+1}時,衆數向後一組靠,衆數大於其組中值。
  • f1>f+1f_{-1} > f_{+1}時,衆數向前一組靠,衆數小於其組中值。

基於以上思路,用U、L分別表示衆數所在組的上、下限,分組數據的衆數計算公式,如下:

  • 上限公式:M0=L+fmf(1)(fmf(1))+(fmf(+1))×d=L+Δ1Δ1+Δ2×dM_0 = L + \frac{f_m - f_{(-1)}}{(f_m - f_{(-1)})+(f_m - f_{(+1)})} \times d = L + \frac{\Delta_1}{\Delta_1+\Delta_2} \times d
  • 下限公式:M0=Ufmf(+1)(fmf(1))+(fmf(+1))×d=UΔ2Δ1+Δ2×dM_0 = U - \frac{f_m - f_{(+1)}}{(f_m - f_{(-1)})+(f_m - f_{(+1)})}\times d = U - \frac{\Delta_2}{\Delta_1+\Delta_2} \times d

公式理解:

  • 衆數是根據衆數組及其相鄰組的頻數分佈信息來確定數據中心點位置的,所以,衆數不受極值影響。

公式應用前提:

  • 假設數據分佈具有明顯的集中趨勢,且衆數組的頻數在該組內均勻分佈。
  • 若假設不成立,則計算衆數的意義不大。

中位數

中位數:

  • 在一組有序數據中,位於中間位置的數據。
  • 中位數將全部數據從中間一分爲二。
  • 在一個等差數列或正態分佈數列中,中位值等於算術平均值。

中位數應用:

  • 數據出現極值,用中位數要比用算術平均值好,因爲中位數不受極值影響。
  • 主要用於順序數據,也可用於數值型數據,不能用於分類數據。

中位數特點:

  • 不受極值影響。
  • 對離散型變量的單項式數列來說,當次數分佈偏態時,計算中位數意義不大。

中位數計算
1.非分組數據
STEP 1:排序。假設排序結果爲x1x2xnx_1 \leq x_2 \leq……\leq x_n
STEP 2:確定中位數。中位數用M_e表示。Me={xn+12(n)xn2+xn2+12(n)M_e = \begin{cases} \frac{x_{n+1}}{2}(n爲奇數)\\ \\ \frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}(n爲偶數)\\ \end{cases}

在Excel中,用MEDIAN函數計算。
函數表示:=MEDIAN(number1,number2,……)
參數:number可用單個數組或區域。

2.分組數據
STEP 1:找中位數組,該組的上下限限制了中位數的取值範圍。從變量數列的累計頻數欄中找出第n2\frac{n}{2}個單位所在的組,即“中位數組”。
STEP 2:假設中位數組數據均勻分佈,則中位數的計算公式如下:Me=Li+n2Fi1FiFi1×dM_e = L_i + \frac{\frac{n}{2}-F_{i-1}}{F_i-F_{i-1}} \times d
參數:

  • LiL_i,表示中位數組的下限。
  • d,表示中位數組的組距。
  • FiF_i,表示中位數組的累計頻數。
  • Fi1F_{i-1},表示中位數組前一組的累計頻數。
  • n,表示數據個數。

方差與標準差

方差和標準差的作用:

  1. 度量數據離散趨勢
  2. 反映各變量值與均值的平均差異。

方差:

  • 各變量值與其平均值離差平方的平均值。
  • 其平方根爲標準差。
  • 能較好地反映數據的離散趨勢。

方差與平均差:

  • 平均差用絕對值度量,雖然避免了正負離差求和時相互抵消,但不方便計算。因此,常用方差度量一組數據的離散性。

方差的計算
1.未分組數據

  • 方差:S2=i=1n(xixˉ)2n1S^2 = \frac{\sum_{i=1}^n{(x_i-\bar x)}^2}{n-1}
  • 標準差:S=i=1n(xixˉ)2n1S =\sqrt [] {\frac{\sum_{i=1}^n{(x_i-\bar x)}^2}{n-1}}

在Excel中,用VAR函數計算方差,用STDEV函數計算標準差。
函數表示:

  • =VAR(number1,number2,……)
  • =STDEV(number1,number2,……)

2.分組數據

  • 方差:S2=i=1k(Mixˉ)2fin1S^2 = \frac{\sum_{i=1}^k{(M_i-\bar x)}^2f_i}{n-1}
  • 標準差:S=i=1k(Mixˉ)2fin1S =\sqrt [] {\frac{\sum_{i=1}^k{(M_i-\bar x)}^2f_i}{n-1}}

3.描述總體分佈形態的統計量

偏度和峯度主要用於描述數據分佈的形狀是否對稱、偏斜的程度、分佈的扁平程度等。

偏度

偏態:

  • 是對數據分佈對稱性的度量。
  • 度量偏態的統計量是偏度。

偏度:

  • 偏度爲0,對稱分佈;
  • 偏度不爲0,不對稱分佈;
  • 偏度大於1或小於-1,高偏態分佈;
  • 偏度在0.5 ~ 1或-1 ~ 0.5之間,中等偏態分佈;
  • 偏度越接近於0,分佈的偏斜程度越低。

偏度計算公式如下:SK=n(xixˉ)3(n1)(n2)s3SK = \frac{n \sum{(x_i- \bar x)^3}}{(n-1)(n-2)s^3}

  • SK > 0,右偏分佈;
  • SK < 0,左偏分佈;
  • SK值越大,表示偏斜的程度越大。

在Excel中,用SKEW函數計算。
函數表示:=SKEM(number1,number2,……)

峯度

峯態:

  • 是對數據分佈平峯或尖峯程度的度量。
  • 度量峯態的統計量是峯度。
  • 峯態常與標準正態分佈對比而言。

峯度:

  • 峯度爲0,標準正態分佈;
  • 峯度不爲0,分佈比正態分佈更平或更尖。

峯度的計算公式如下:K=n(n+1)(xixˉ)43[(xixˉ)2]2(n1)(n1)(n2)(n3)s4K = \frac{n(n+1)\sum{(x_i-\bar x)^4}-3[\sum(x_i-\bar x)^2]^2(n-1)}{(n-1)(n-2)(n-3)s^4}

  • 用峯度說明分佈的扁平或尖峯程度,是相對於標準正態分佈的峯度而言的。
  • K > 0,尖峯分佈,數據的分佈更集中;
  • K < 0,扁平分佈,數據的分佈更分散。

在Excel中,用KURT函數計算。
函數表示:=KURT(number1,number2,……)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章