自從學會了Python、R語言、SQL語言、TableauBI工具、Excel等一衆數據與數據科學密切相關的工具之後,我在朋友圈裏面也算是小有名氣了。這不,前些天,一位好友就委託我用自身所學知識簡要地幫他分析一個從一個競賽網站上得到的虛擬數據集,以給他看一下其他人的分析思路。切入正題,具體如下:
1. 加載數據
朋友提供的是一個CSV格式文件的數據集,現在我用pandas把它加載到Python的虛擬表中。
預覽數據源:
import pandas as pd
tengyulong1 = pd.read_csv("C:\Users\QDM\Desktop\水果超市.csv",parse_dates = ["銷售日期"])
tengyulong1
預覽表格:
2. 分析哪些單品比較暢銷(銷售數量較大)
先根據“商品編號”和“商品名稱”對“銷售數量”作聚合運算,分別求出不同單品的總銷售數量。
tengyulong2 = tengyulong1.groupby(["商品編號", "商品名稱"])["銷售數量"].sum().reset_index()
tengyulong2
2. 分析哪些單品比較暢銷(銷售數量較大)
2.1 先根據“商品編號”和“商品名稱”對“銷售數量”作聚合運算,分別求出不同單品的總銷售數量。
2.2 接着排降序查看銷售數量TOP10的單品是哪些
2.3 用Tableau概覽不同商品的總銷售數量佔比:
由上可見,進口藍莓、泰國椰青、進口香蕉、新疆庫爾勒香梨、蜜橘、陝西富士、冰糖蜜梨、愛媛果凍橙、南風蜜桔、冰糖桔,這10種水果較爲暢銷,所以明年雙十一可以考慮下多備貨。其餘銷量低的單品,雖然未能較好地支撐銷量戰報,但無形中卻起到一定的引流作用,滿足不同客戶的口味與選擇。即有其存在的價值,故不能盲目下架。
3. 分析不同渠道的銷售佔比:
3.1 先計算出各種單品的總銷售金額,並添加到DataFrame中。
3.2 按照“銷售渠道”做分組求和:
3.3 繪製環形圖看一下不同渠道的銷售佔比:
渲染效果:
顯然,該超市以“線下門店”作爲主要銷售渠道,同時不忘跟上互聯網潮流,拓展相關的電商銷售渠道,雙管齊下,來儘可能多地拉動業績戰報。雖然電商渠道在雙十一當天僅佔業績貢獻的約1/4,但也不容小覷。平時在適當試錯成功後,也應該積極拓展一下電商業務。
5. 分析超市客流高分高峯時間段
5.1 瞭解客流高峯時間段是很有必要的,可以幫助超市確定什麼時間開展促銷活動最合適。
注:因爲是虛擬數據,所以請不要將結果代入實際場景中。
5.2 顯然,這樣計算出來的結果不太直觀,所以我分別將它繪製成一個按時間點劃分區間的柱形圖與折線圖。
5.3 因爲銷售數據結果過於龐大,所以先將結果導出到Excel中簡單清洗一下,在輔助列中轉換成以“萬”爲單位,以免數據標籤在接下來的可視化圖形中因爲過長而顯得過於繚亂。
5.4 接着,再用Python對清洗後的結果作合理的可視化。
5.5 從上圖可以發現,中午12點與下午6點左右,即飯前、飯後是當天銷售的高峯期,所以在這兩個時間段搞促銷效果會比較好;
凌晨時間段是睡覺時間,客流量較低,所以不用投入過多的人力成本來顧守。
最高銷售額是下午13點,可大膽猜測是人們午飯後或下班後有空出來散步或上網購物所衝出來的高業績。另外,平均每小時的總銷售額約爲1489.23萬。