Excel-箱線圖(數據分佈)分析

本文摘自作者《網站數據分析:數據驅動的網站管理、優化和運營 》:http://item.jd.com/11295690.html


箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),它是用一組數據中的最小值、第一四分位數、中位數、第三四分位數和最大值來反映數據分佈的中心位置和散佈範圍,可以粗略地看出數據是否具有對稱性。通過將多組數據的箱線圖畫在同一座標上,則可以清晰地顯示各組數據的分佈差異,爲發現問題、改進流程提供線索。


1什麼是四分位數


箱線圖需要用到統計學的四分位數(Quartile)的概念,所謂四分位數,就是把組中所有數據由小到大排列並分成四等份,處於三個分割點位置的數字就是四分位數。


  • 第一四分位數(Q1),又稱較小四分位數或“下四分位數”,等於該樣本中所有數值由小到大排列後第25%的數字。

  • 第二四分位數(Q2),又稱中位數,等於該樣本中所有數值由小到大排列後第50%的數字。

  • 第三四分位數(Q3),又稱較大四分位數或“上四分位數”,等於該樣本中所有數值由小到大排列後第75%的數字。

  • 第三四分位數與第一四分位數的差距又稱四分位間距(InterQuartile RangeIQR)。


計算四分位數首先要確定Q1Q2Q3的位置(n表示數字的總個數):


  • Q1的位置=n+1/4

  • Q2的位置=n+1/2

  • Q3的位置=3n+1/4


對於數字個數爲奇數的,其四分位數比較容易確定。例如,數字“54748154241739454035”共有11項,由小到大排列的結果爲“57153539404142454748”,計算結果如下:


  • Q1的位置=11+1/4=3,該位置的數字是15

  • Q2的位置=11+1/2=6,該位置的數字是40

  • Q3的位置=311+1/4=9,該位置的數字是45


而對於數字個數爲偶數的,其四分位數確定起來稍微繁瑣一點。例如,數字“81738394244”共有6項,位置計算結果如下:


  • Q1的位置=6+1/4=1.75

  • Q2的位置=6+1/2=3.5

  • Q3的位置=36+1/4=5.25


這時的數字以數據連續爲前提,由所確定位置的前後兩個數字共同確定。例如,Q2的位置爲3.5,則由第3個數字38和第4個數字39共同確定,計算方法是:38+39-38×3.5的小數部分,即38+1×0.5=38.5。該結果實際上是3839的平均數。


同理,Q1Q3的計算結果如下:


  • Q1 = 8+17-8×0.75=14.75

  • Q3 = 42+44-42×0.25=42.5


Excel爲計算四分位數提供了QUARTILE(array,quart)函數,其中array參數用於指定要計算四分位數值的數組或數值型單元格區域,quart指定返回哪一個四分位值,可用值如下:


  • 0,返回最小值;

  • 1,返回第一個四分位數;

  • 2,返回第二個四分位數,即中位數;

  • 3,返回第三個四分位數;

  • 4,返回最大值。

2.箱線圖的結構

箱線圖包括一個矩形箱體和上下兩條豎線,箱體表示數據的集中範圍,上下兩條豎線分別表示數據向上和向下的延伸範圍,結構如圖9-51所示。




9-51箱線圖的結構

四分位間距框的頂部線條是第三四分位數的位置,即Q3,表示有75%的數據小於等於此值。底部線條是第一四分位數的位置,即Q1,表示有25%的數據小於此值。則整個四分位間距框所代表的是數據集中50%(即75%-25%)的數據,四分位間距框的高度就是這些數據涉及的範圍,能夠表現出數據的集中程度。Q2是數據中位數的位置。


Whisker上限是延伸至距框頂部1.5倍框高範圍內的最大數據點,Whisker下限是延伸至距框底部1.5倍框高範圍內的最小數據點,超出Whisker上限或下限的數值將使用星號“*”表示。但是,在Excel中繪製箱線圖需要藉助股價圖來實現,因此無法展現異常值,Whisker上限將延伸至數據最大值的位置,Whisker下限將延伸至數據最小值的位置。


3.繪製箱線圖


9-52中的A2:F8區域和H2:M8區域分別是華北和華南是某段時間客戶訂單收貨天數的統計結果,C11:C15J11:J15是利用QUARTILE函數計算的華北、華南收貨天數的四分位數結果。

9-52收貨天數的四分位數計算結果


Excel中繪製箱線圖需要藉助股價圖的“開盤-盤高-盤底-收盤”圖來實現。根據Excel繪圖時放置數據系列的位置,開盤、盤高、盤底、收盤應分別對應Q1Q0Q2Q4。下面是繪圖步驟:


  • 準備圖表數據。根據對應關係,在表格的B18:E18區域分別輸入華北客戶的Q1Q0Q2Q4統計數字,將Q3輸入到最後的F18單元格中,在A18中輸入一個日期型數據(注意,必須爲日期型),如“2013/1/1”。然後在第19行中輸入華南客戶的數據,A19中的日期遞增1天,最終結果如圖9-53所示。

9-53準備圖表數據


  • 插入圖表。選定A18:E19區域,在“插入”功能區的“圖表”模塊中單擊“其他圖表”,選擇股價圖部分的“開盤-盤高-盤底-收盤圖”按鈕,即可看到繪製的股價圖,如圖9-54所示。

9-54插入股價圖


  • 添加Q3數據系列。由圖9-54可以看出,四分位間距框的頂部線條使用的是Q4(最大值)位置,而是不是箱線圖要求的Q3位置。右擊繪圖區,在彈出的快捷菜單中選擇“選擇數據”命令,打開“選擇數據源”對話框。單擊“添加”按鈕打開“編輯數據系列”對話框,在“系列名稱”摺疊框中輸入“Q3”,在系列值摺疊框中選擇F18:F19區域,單擊“確定”按鈕即可看到股價圖變成了箱線圖,如圖9-55所示。四分位間距框的高度小了很多,單擊頂部線條與Whisker上限交匯處,可以看到使用的是Q3數據。

9-55 添加Q3數據系列


  • 顯示中位數線。至此,四分位間距框雖然已經繪製正確了,但是還缺少中位數線,即Q2。選擇圖例中的“系列3”標籤,然後單擊鼠標右鍵,在彈出的快捷菜單中選擇“設置數據系列格式”命令,打開“設置數據系列格式”對話框。在“數據標記選項”中將標記類型設置爲內置的“-”形狀,單擊“關閉”按鈕即可看到中位線顯示了出來,如圖9-56所示。

9-56顯示中位數線


  • 美化圖表。首先要修改分類軸(橫軸)標籤,由於插入股價圖時的限制在A18A19單元格中輸入了日期型數據,但是在圖表插入後,可以將其修改爲其他數據類型的值,因此在A18A19單元格分別輸入“華北”、“華南”。其次是刪除圖例欄,對於箱線圖而言這並不需要。最後,可以爲圖表添加一個標題。最終美化後結果如圖9-57所示。

9-57美化後的圖表


由圖9-57可以看出,華北和華南客戶的中位數位置、四分位間距框的位置與高度基本相同,說明兩區域的客戶收貨天數基本相同。但是,從Whisker上限和Whisker下限看,華南客戶的收貨天數範圍小於華北客戶,說明流程更加穩定。



發佈了92 篇原創文章 · 獲贊 107 · 訪問量 116萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章