描述性統計分析
描述定性數據的圖形法和數值法
對給定的類,類(或組)頻數是指落入這個類中的觀測值的個數。
對給定的類,類(或組)相對頻率是指落入這個類中的觀測值個數相對於觀測值總數的比例。
定性數據的圖形描述常用條形圖,餅圖和帕雷託圖。
條形圖:給出相應每一類的頻數(或相對頻率),長方形的高度或長度與類頻數(或相對頻率)成比例。
餅圖:把一個整圓(餅)分成幾份,每一份代表一個類,每份中心角與類相對頻率成比例。
帕雷託圖:將定性變量(即長方形)的類(組)按照高度從左向右降序排列的條形圖。
帕雷託圖以意大利經濟學家 Vilfredo Pareto 命名。
描述定量數據的圖形法
定量數據集是由某種有意義的數值標度的數據組成。爲了描述、總結和檢測這些數據的模型,我們可以採用三種圖形法:點圖、莖葉圖和直方圖。
點圖
數據集中每一個定量測量的數值表示爲水平刻度尺上的一個點,當數值重複時,點垂直畫在另一個點之上。
莖葉圖
定量變量的數值分爲莖和葉兩部分,可能的莖按順序排在一列中,數據集中每一定量測量值的葉放在相應莖的行上,有相同莖的觀測值的葉在水平方向按升序排列。
莖是測量值小數點左邊的部分,葉是剩下的小數點右邊的部分。
直方圖
定量變量的可能數值被分成若干組區間,其中每一區間有相同的寬度,這些區間構成了水平軸刻度。確定落在每一組區間中的觀測值的頻數或相對頻率。每一組區間上放一個垂直的長方形,它的高度或者等於頻數或者等於相對頻率。
描述定量數據的數值法
三種類型的度量
- 中心趨勢度量:幫助確定相對頻率分佈中心位置的度量
- 變異的度量:圍繞中心波動的度量
- 相對位置的度量:描述數據集中一個觀測值相對位置的度量
兩個定義
- 統計量:有樣本數據計算得到的數值描述性度量
- 參數:總體的數據描述性度量
中心趨勢的度量
算數平均、中位數和衆數是三種最常用的中心趨勢度量。
變異性的度量
數據變異性最常用度量是極差、方差和標準差。
- 極差:等於y一個數據集合中最大測量值和最小測量值的差。
- 方差
- 標準差
經驗法則
若一個數據集有近似丘形的對稱分佈,則可用以下的經驗法則描述數據集:
1. 大約68%的測量值位於均值的1個標準差範圍內
2. 大約95%的測量值位於均值的2個標準差範圍內
3. 幾乎所有的測量值位於均值的3個標準差範圍內
相對位置的度量
觀測值相對位置的兩個度量是百分位數和 得分。
百分位數
定義
數據集的第 百分位數是這樣一個 值:使得在數據集的相對頻率分佈中有 的面積位於它的左邊,有 的面積位於它的右邊(其中, )。
中位數是第50百分位數。
對一個數據集而言,第25百分位數、中位數、第75百分位數分別稱作下四分位數,中四分位數和上四分位數。
五數概括(five-number summary)由中位數、四分位數(上、下四分位數)、最小和最大觀測值組成。
z得分
定義
一個數據集中 值的 得分是以標準差爲單位度量 位於均值之上或之下的距離。
樣本 得分:
其中, 是樣本均值, 是樣本標準差。
總體 得分:
其中, 是總體均值, 是總體標準差。
檢測異常值的方法
定義
相對於數據集中其他值不尋常地大或小的觀測值 稱爲異常值。一般異常值歸咎於下列原因之一:
1. 觀測、記錄或輸入計算機時不正確的測量值
2. 測量值來自不同的總體
3. 觀測值是正確的,但是代表一個稀有(偶然)事件
使用z得分來檢測異常值
經驗法則表明,數據集中幾乎所有觀測值的 得分絕對值小於3。
使用盒子圖來檢測異常值
盒圖(boxplot)是一種流行的分佈的直觀表示。盒圖體現了五數概括:
- 盒的端點一般在四分位數上,使得盒的長度是四分位數極差(間距)IQR
- 中位數用盒內的線標記
- 盒外的兩條線(稱作鬍鬚)延伸到最小和最大觀測值。
定義
四分位數間距IQR是上四分位數和下四分位數的距離:
內籬笆
外籬笆