簡單瞭解箱型圖

 

一、什麼是箱型圖

箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot)、盒式圖或箱線圖,是利用數據中的五個統計量:最小值、上四分位數、中位數、下四分位數與最大值來描述數據的一種統計圖。它能夠直觀地顯示數據的異常值,分佈的離散程度以及數據的對稱性。

中位數:數據按從小到大順序排列後的處於中間位置的值,如果序列是偶數個,則是中間兩個數的平均值

下四分位數Q1:位於數據序列25%位置處的數

上四分位數Q3:位於數據序列75%位置處的數

四分位間距IQR:即 IQR = Q3-Q1

下邊緣:= Q1 – 1.5 *IQR

上邊緣:= Q3 + 1.5 *IQR

可能有人會有這樣的疑問:上下邊緣都是加減IQR,爲什麼圖中的虛線長度會不一樣?

其實下邊緣的確定是依據大於Q1-1.5*IQR的最小值,所以除非剛好有值等於Q1-1.5*IQR,否則實際的下邊緣是要比Q1-1.5*IQR大的。同理,上邊緣就是小於Q3 + 1.5 *IQR的最大值。所以大多數情況下,上下虛線是不等長的。

 

二、箱型圖的特徵

  1. 直觀地觀察到異常值,如果數據存在離羣點,即位於上下邊緣區域之外,以圓點的形式表示
  2. 當箱型圖很短時,意味着很多數據多集中分佈在很小的範圍內
  3. 當箱型圖很長時,意味着數據分佈比較離散,數據間的差異比較大
  4. 當中位數接近底部時,說明大部分的數據值比較小
  5. 當中位數接近頂部時,說明大部分的數據值比較大
  6. 中位數所處的高低位置能反映數據的偏斜程度
  7. 如果上下虛線比較長,說明上下四分位數之外的數據變化比較大,整體數據的方差和標準偏差也比較大
  8. 箱型圖的上下邊緣並非最大值或最小值

 

三、箱型圖的缺點

  1. 箱型圖雖然能顯示出數據的分佈偏態,但是不能提供關於數據分佈偏態和尾重程度的精確度量;
  2. 對於批量較大的數據批,箱線圖反映的形狀信息更加模糊;
  3. 用中位數代表總體平均水平有一定的侷限性。

所以,應用箱線圖最好結合其它描述統計工具如均值、標準差、偏度、分佈函數等來描述數據批的分佈形狀。

最後附上下圖

 

æ åæ­£æåå¸çç®±åå¾åæ¦çå¯åº¦å½æ°å¾

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章