數據分析工具箱v1.3——連續分佈

背景

除了離散型變量的頻率統計,連續型數值的分佈觀察也是探索性數據分析中常用的方法。僅僅只看平均值是不夠的,會掩蓋掉許多信息;你還需要觀察數據是均勻分佈的,還是主要集中在腰部首尾較少的橄欖型,或者是具有長尾效應的金字塔型——這樣才能對數據樣本有更全面的瞭解。另外,除了探索性數據分析以外,基於預期的分位數反推數據,也是實際業務中許多運營策略臨界值的決策依據。因此,基於臨界值統計分佈、基於分位點計算臨界值,是這個工具的主要目標。

在實際工作中,這種數據需求並不少見——比如用戶使用時長分佈、訂單金額分佈、連續訪問間隔分佈等等。其實統計方法很簡單,一般就是設置斷點,將連續數值分隔成離散區間,再聚合統計。不過既然是探索性數據分析,也許並沒有許多先驗知識,比如斷點怎麼設置才合理。交付完數據之後,如果需求方還想再換種分析角度,那就得改代碼再跑一遍……

事實上,探索性數據分析應當是一種輕量的、高頻的場景,它不值得數據分析師投入太多支持成本,更不值得數據倉庫專門去生產調度——它就應該是一個輕量級的工具,即時需要,即時查詢,即時獲取到分析結果,用完就走,什麼都不留下。

本文以訂單金額分佈分析爲應用場景,探索2個問題,來演示這個工具如何使用:

  1. 付費用戶的支付金額主要集中在什麼範圍,亦即消費主力的消費水平如何?
  2. 如果要分別對頭部20%、尾部20%的付費用戶作運營活動,應該怎麼確定範圍?

產品操作

數據樣本

以均值1000,標準差爲200的標準構建樣本量爲10000的正態分佈隨機數據(一會兒我們驗證一下究竟長得像不像正態分佈),然後上傳上去,就一個付費金額字段,其他不需要。

控件功能

控件有3個,第1個是用來選擇1個度量的下拉框,當用戶上傳完數據後,這個下拉框會自動篩選出度量,用戶選擇1個即可。後面2個輸入框分別對應着下面2個圖——中間的輸入框用來輸入區間斷點,即輸入一些數值,系統基於這個數值劃分區間再統計分步;右邊的輸入框用來輸入分位點,系統基於分位點自動計算並返回對應的數值。

良好的兼容性

用戶在這2個輸入框中輸入數值,用英文逗號連接。

  • 不需要考慮輸入的數值是否在數據範圍內,系統會自動把小於最小值或大於最小值的輸入值給過濾掉
  • 不需要考慮從大到小還是從小到大的順序,系統會自動排序
  • 不需要考慮有沒有多打幾個空格沒看出來,系統會自動trim
  • 不需要在意輸入的有沒有字符串等錯誤信息,系統會自動過濾,只要在對的地方用逗號分割

比如,我只輸入一個0,這是小於數據的最小值的,所以整個訂單金額並沒有被分割:

比如我不按順序(還有重複)地輸入1000,2000,1000,1500,系統會自動先排序再分割統計:

比如我的輸入中帶有字符串,系統會自動忽略:

綜上,只要用戶填寫的分界點的數值本身沒寫錯,分隔符的位置也沒寫錯,其他無約束,想怎麼填就怎麼填。

數據分析

回到我們開頭的2個問題,我們怎麼使用這個工具快速進行分析,得出結論?

基於分界點計算分佈

我先從0開始,每隔500作爲一個步長來遞進到3000,即輸入0,500,1000,1500,2000,2500,3000。可以看到付費訂單金額最小值是14,最大是1736,付費金額主要集中在(500,1500]的範圍內。

當然,你可能覺得這麼劃分太粗,沒關係,可以繼續細化,也不用考慮是不是均勻分割的——前面說過,想怎麼填就怎麼填。我們在剛纔的基礎上,進一步對500~1500的範圍內,以每隔100的規則遞進,即輸入0,500,600,700,800,900,1000,1100,1200,1300,1400,1500,2000,2500,3000。可以看到,果然是標準的正態分佈。

當然,我們把鼠標hover到柱形圖上,可以看到更詳細的信息:

  • interval:所在區間
  • counts:所在區間內樣本量
  • frequency:所在區間內樣本的比例
  • accumulated frequency:所在區間的累計比例,即不超過這個區間的比例

圖中這個例子的解讀如下:消費金額在(1000,1100]範圍內的付費用戶數有1919個,佔全部付費用戶的19.19%,消費不超過1100的付費用戶比例爲69.55

每個柱形hover一遍,自己再口算一下,第1個問題就能回答:消費主力羣(佔付費用戶比例的77.43%)的消費金額都介於700~1300。

基於分位點計算分界值

現在回答第2個問題,要把頭部和尾部各20%的用戶篩選出來,即是求20%和80%分位數的值,在右側輸入框輸入0.2,0.8即可。從圖中可以看到,20%分位數是828,80%分位數是1165。因此,要找頭部20%付費用戶,即篩選付費金額大於等於1165的;尾巴20%則篩選付費金額小於等於828的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章