點擊上方豬哥Python關注,跟着豬哥學Python
-
第一篇: Python模擬登錄淘寶,詳細講解如何使用requests庫登錄淘寶pc端。 -
第二篇: 淘寶自動登錄2.0,新增Cookies序列化,教大家如何將cookies保存起來。 -
第三篇: Python爬取淘寶商品TT,教大家如何爬取淘寶pc端商品信息。
一、分析目標
-
分析避孕套標題高頻關鍵字 -
分析避孕套標題高頻關鍵字 與 商品數量關係 -
分析避孕套標題高頻關鍵字 與 平均銷量關係 -
分析避孕套標題高頻關鍵字 與 平均售價關係 -
分析避孕套商品價格區間分佈關係 -
分析避孕套商品銷量區間分佈關係 -
分析避孕套商品價格區間 與 平均銷量關係 -
分析避孕套商家數量全國分佈關係 -
分析避孕套商家全國平均銷量關係
二、分析實現
中文文檔:https://pyecharts.org/#/zh-cn/intro
源碼地址:https://github.com/pyecharts/pyecharts
0.數據清洗
根據使用庫的經驗豬哥認爲有兩列數據需要清洗:1、銷量轉成整型 2、地區轉成只包含省份,具體如何清洗我們直接看代碼吧!
大家可以看到最後豬哥又從新生成了一個excel文件,目的就是不去污染原始數據, 因爲原始數據非常重要,所以我們在以後的數據處理中要儘量保存好原始數據,多備份幾個都不多餘!
1.分析避孕套標題高頻關鍵字
十幾行代碼就搞定了,我們來看看效果圖吧
分析結論:
-
從整體看商家取名偏愛情趣二字 -
從材質看尿酸的最多 -
從功能看顆粒、螺紋的較多
2.分析避孕套標題高頻關鍵字 與 商品數量關係
我們取最高頻的20個關鍵字,然後遍歷所有數據的標題中是否包含其中關鍵字,如果包含則該關鍵字的value就+1。來看看生成的柱狀圖效果吧!
-
包含情趣二字的商品有1150款,佔到總數(2500款+)的46%。 -
前三甲是:情趣、尿酸、顆粒
3.分析避孕套標題高頻關鍵字 與 平均銷量關係
分析結論:
-
螺紋功能平均銷量最高,大家的最愛 -
功能平均銷量前三分別是:螺紋、顆粒、狼牙 -
小號竟然上榜,哈哈
4.分析避孕套標題高頻關鍵字 與 平均售價關係
高頻關鍵字 與 平均售價關係分析原理與上面是相似的,使用的同一個方法,只不過是將原來的銷量換成價格,來看看效果圖吧!
分析結論:
-
可以看到前排幾個基本都是關於材質的 -
凝膠、透明質、免洗這三項均價最貴,超過100大洋
5.分析避孕套商品價格區間分佈關係
豬哥人爲的對價格進行了劃分,一共分爲:’0-20’, ‘21-40’, ‘41-60’, ‘61-80’, ‘81-100’, ‘101-120’, ‘121-150’, ‘151-200’, ‘200以上’這9個區間,然後對數據切割、統計、排序,最後分別生成柱狀圖和餅圖。
分析結論:
-
價格區間在21-40的商品最多爲778款,大約佔比31%。 -
價格在一百以內與超過一百的商品比大概爲7:1
6.分析避孕套商品銷量區間分佈關係
銷量區間分佈分析實現原理:認爲爲銷量分區,大概分爲:’一千以內’, ‘一千到五千’, ‘五千到一萬’, ‘一萬到五萬’, ‘五萬到十萬’, ‘十萬以上’,這六個區間,然後同上方法進行統計、排序最後可視化。
分析結論:
-
銷量在1000以內的最多,大概佔比90% -
銷量過萬的一共也才10款,說明爆款真的很少 -
有一款套套銷量竟然超過10萬
7.分析避孕套商品價格區間 與 平均銷量關係
商品價格區間 與 平均銷量關係分析實現原理是:使用pandas自動分區將價格劃分爲12個分區,然後對銷量數據分組、求平均值,來看看可視化之後的效果。
分析結論:
-
定價在31.9-39這個區間平均銷量最高,爲893 -
定價在10元以內的銷量竟然高居第二
8.分析避孕套商家數量全國分佈關係
統計商家數量還是比較簡單,因爲我們之前在數據清洗的時候已經只保留了省份數據,所以直接value_counts()就可以得到想要的數據,看看效果如何!
分析結論:
-
避孕套商家前三甲:廣東、上海、浙江
9.分析避孕套商家全國平均銷量關係
商家全國平均銷量關係分析實現原理:我們新創建一個透視表並對銷量求平均值,然後再排序,最後生成熱力圖和柱狀圖。
-
出乎意料的是山西39個商家平均銷量竟然是第一爲1535。
三、總結
-
用戶偏愛螺紋、顆粒、狼牙等功能 -
凝膠、透明質、免洗這三項均價最貴,超過100大洋 -
價格區間在21-40的商品最多爲778款,大約佔比31% -
銷量在1000以內的最多,大概佔比90% -
定價在31.9-39這個區間平均銷量最高,爲893 -
避孕套商家數量前三甲:廣東、上海、浙江 -
山西省平均銷量最高爲山西
本文分享自微信公衆號 - 豬哥Java(pig-python)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。