3. 描述性統計分析

描述性統計分析

描述定性數據的圖形法和數值法

對給定的類,類(或組)頻數是指落入這個類中的觀測值的個數。

對給定的類,類(或組)相對頻率是指落入這個類中的觀測值個數相對於觀測值總數的比例。

定性數據的圖形描述常用條形圖餅圖帕雷託圖

條形圖:給出相應每一類的頻數(或相對頻率),長方形的高度或長度與類頻數(或相對頻率)成比例。

餅圖:把一個整圓(餅)分成幾份,每一份代表一個類,每份中心角與類相對頻率成比例。

帕雷託圖:將定性變量(即長方形)的類(組)按照高度從左向右降序排列的條形圖。

帕雷託圖以意大利經濟學家 Vilfredo Pareto 命名。

描述定量數據的圖形法

定量數據集是由某種有意義的數值標度的數據組成。爲了描述、總結和檢測這些數據的模型,我們可以採用三種圖形法:點圖、莖葉圖和直方圖。

點圖

數據集中每一個定量測量的數值表示爲水平刻度尺上的一個點,當數值重複時,點垂直畫在另一個點之上。

莖葉圖

定量變量的數值分爲莖和葉兩部分,可能的莖按順序排在一列中,數據集中每一定量測量值的葉放在相應莖的行上,有相同莖的觀測值的葉在水平方向按升序排列。

莖是測量值小數點左邊的部分,葉是剩下的小數點右邊的部分。

直方圖

定量變量的可能數值被分成若干組區間,其中每一區間有相同的寬度,這些區間構成了水平軸刻度。確定落在每一組區間中的觀測值的頻數或相對頻率。每一組區間上放一個垂直的長方形,它的高度或者等於頻數或者等於相對頻率。

描述定量數據的數值法

三種類型的度量

  • 中心趨勢度量:幫助確定相對頻率分佈中心位置的度量
  • 變異的度量:圍繞中心波動的度量
  • 相對位置的度量:描述數據集中一個觀測值相對位置的度量

兩個定義

  • 統計量:有樣本數據計算得到的數值描述性度量
  • 參數:總體的數據描述性度量

中心趨勢的度量

算數平均中位數衆數是三種最常用的中心趨勢度量。

變異性的度量

數據變異性最常用度量是極差方差標準差

  • 極差:等於y一個數據集合中最大測量值和最小測量值的差。
  • 方差
  • 標準差

經驗法則

若一個數據集有近似丘形的對稱分佈,則可用以下的經驗法則描述數據集:
1. 大約68%的測量值位於均值的1個標準差範圍內
2. 大約95%的測量值位於均值的2個標準差範圍內
3. 幾乎所有的測量值位於均值的3個標準差範圍內

相對位置的度量

觀測值相對位置的兩個度量是百分位數和z 得分。

百分位數

定義
數據集的第100p 百分位數是這樣一個y 值:使得在數據集的相對頻率分佈中有100p% 的面積位於它的左邊,有100(1p)% 的面積位於它的右邊(其中,0p1 )。

中位數是第50百分位數。

對一個數據集而言,第25百分位數、中位數、第75百分位數分別稱作下四分位數中四分位數上四分位數

五數概括(five-number summary)由中位數、四分位數(上、下四分位數)、最小和最大觀測值組成。

z得分

定義
一個數據集中y 值的z 得分是以標準差爲單位度量y 位於均值之上或之下的距離。

樣本z 得分:

z=yy¯s

其中,y¯ 是樣本均值,s 是樣本標準差。

總體z 得分:

z=yμσ

其中,μ 是總體均值,σ 是總體標準差。

檢測異常值的方法

定義
相對於數據集中其他值不尋常地大或小的觀測值y 稱爲異常值。一般異常值歸咎於下列原因之一:
1. 觀測、記錄或輸入計算機時不正確的測量值
2. 測量值來自不同的總體
3. 觀測值是正確的,但是代表一個稀有(偶然)事件

使用z得分來檢測異常值

經驗法則表明,數據集中幾乎所有觀測值的z 得分絕對值小於3。

使用盒子圖來檢測異常值

盒圖(boxplot)是一種流行的分佈的直觀表示。盒圖體現了五數概括:
- 盒的端點一般在四分位數上,使得盒的長度是四分位數極差(間距)IQR
- 中位數用盒內的線標記
- 盒外的兩條線(稱作鬍鬚)延伸到最小和最大觀測值。

定義
四分位數間距IQR是上四分位數和下四分位數的距離:

IQR=QUQL

內籬笆

下側內籬笆=QL1.5(IQR)

上側側內籬笆=QU+1.5(IQR)

外籬笆

下側外籬笆=QL3(IQR)

上側外籬笆=QU+3(IQR)

Reference

  1. 統計學
  2. 數據挖掘概念與技術
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章