一、什麼是箱型圖
箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot)、盒式圖或箱線圖,是利用數據中的五個統計量:最小值、上四分位數、中位數、下四分位數與最大值來描述數據的一種統計圖。它能夠直觀地顯示數據的異常值,分佈的離散程度以及數據的對稱性。
中位數:數據按從小到大順序排列後的處於中間位置的值,如果序列是偶數個,則是中間兩個數的平均值
下四分位數Q1:位於數據序列25%位置處的數
上四分位數Q3:位於數據序列75%位置處的數
四分位間距IQR:即 IQR = Q3-Q1
下邊緣:= Q1 – 1.5 *IQR
上邊緣:= Q3 + 1.5 *IQR
可能有人會有這樣的疑問:上下邊緣都是加減IQR,爲什麼圖中的虛線長度會不一樣?
其實下邊緣的確定是依據大於Q1-1.5*IQR的最小值,所以除非剛好有值等於Q1-1.5*IQR,否則實際的下邊緣是要比Q1-1.5*IQR大的。同理,上邊緣就是小於Q3 + 1.5 *IQR的最大值。所以大多數情況下,上下虛線是不等長的。
二、箱型圖的特徵
- 直觀地觀察到異常值,如果數據存在離羣點,即位於上下邊緣區域之外,以圓點的形式表示
- 當箱型圖很短時,意味着很多數據多集中分佈在很小的範圍內
- 當箱型圖很長時,意味着數據分佈比較離散,數據間的差異比較大
- 當中位數接近底部時,說明大部分的數據值比較小
- 當中位數接近頂部時,說明大部分的數據值比較大
- 中位數所處的高低位置能反映數據的偏斜程度
- 如果上下虛線比較長,說明上下四分位數之外的數據變化比較大,整體數據的方差和標準偏差也比較大
- 箱型圖的上下邊緣並非最大值或最小值
三、箱型圖的缺點
- 箱型圖雖然能顯示出數據的分佈偏態,但是不能提供關於數據分佈偏態和尾重程度的精確度量;
- 對於批量較大的數據批,箱線圖反映的形狀信息更加模糊;
- 用中位數代表總體平均水平有一定的侷限性。
所以,應用箱線圖最好結合其它描述統計工具如均值、標準差、偏度、分佈函數等來描述數據批的分佈形狀。
最後附上下圖