点击上方猪哥Python关注,跟着猪哥学Python
-
第一篇: Python模拟登录淘宝,详细讲解如何使用requests库登录淘宝pc端。 -
第二篇: 淘宝自动登录2.0,新增Cookies序列化,教大家如何将cookies保存起来。 -
第三篇: Python爬取淘宝商品TT,教大家如何爬取淘宝pc端商品信息。
一、分析目标
-
分析避孕套标题高频关键字 -
分析避孕套标题高频关键字 与 商品数量关系 -
分析避孕套标题高频关键字 与 平均销量关系 -
分析避孕套标题高频关键字 与 平均售价关系 -
分析避孕套商品价格区间分布关系 -
分析避孕套商品销量区间分布关系 -
分析避孕套商品价格区间 与 平均销量关系 -
分析避孕套商家数量全国分布关系 -
分析避孕套商家全国平均销量关系
二、分析实现
中文文档:https://pyecharts.org/#/zh-cn/intro
源码地址:https://github.com/pyecharts/pyecharts
0.数据清洗
根据使用库的经验猪哥认为有两列数据需要清洗:1、销量转成整型 2、地区转成只包含省份,具体如何清洗我们直接看代码吧!
大家可以看到最后猪哥又从新生成了一个excel文件,目的就是不去污染原始数据, 因为原始数据非常重要,所以我们在以后的数据处理中要尽量保存好原始数据,多备份几个都不多余!
1.分析避孕套标题高频关键字
十几行代码就搞定了,我们来看看效果图吧
分析结论:
-
从整体看商家取名偏爱情趣二字 -
从材质看尿酸的最多 -
从功能看颗粒、螺纹的较多
2.分析避孕套标题高频关键字 与 商品数量关系
我们取最高频的20个关键字,然后遍历所有数据的标题中是否包含其中关键字,如果包含则该关键字的value就+1。来看看生成的柱状图效果吧!
-
包含情趣二字的商品有1150款,占到总数(2500款+)的46%。 -
前三甲是:情趣、尿酸、颗粒
3.分析避孕套标题高频关键字 与 平均销量关系
分析结论:
-
螺纹功能平均销量最高,大家的最爱 -
功能平均销量前三分别是:螺纹、颗粒、狼牙 -
小号竟然上榜,哈哈
4.分析避孕套标题高频关键字 与 平均售价关系
高频关键字 与 平均售价关系分析原理与上面是相似的,使用的同一个方法,只不过是将原来的销量换成价格,来看看效果图吧!
分析结论:
-
可以看到前排几个基本都是关于材质的 -
凝胶、透明质、免洗这三项均价最贵,超过100大洋
5.分析避孕套商品价格区间分布关系
猪哥人为的对价格进行了划分,一共分为:’0-20’, ‘21-40’, ‘41-60’, ‘61-80’, ‘81-100’, ‘101-120’, ‘121-150’, ‘151-200’, ‘200以上’这9个区间,然后对数据切割、统计、排序,最后分别生成柱状图和饼图。
分析结论:
-
价格区间在21-40的商品最多为778款,大约占比31%。 -
价格在一百以内与超过一百的商品比大概为7:1
6.分析避孕套商品销量区间分布关系
销量区间分布分析实现原理:认为为销量分区,大概分为:’一千以内’, ‘一千到五千’, ‘五千到一万’, ‘一万到五万’, ‘五万到十万’, ‘十万以上’,这六个区间,然后同上方法进行统计、排序最后可视化。
分析结论:
-
销量在1000以内的最多,大概占比90% -
销量过万的一共也才10款,说明爆款真的很少 -
有一款套套销量竟然超过10万
7.分析避孕套商品价格区间 与 平均销量关系
商品价格区间 与 平均销量关系分析实现原理是:使用pandas自动分区将价格划分为12个分区,然后对销量数据分组、求平均值,来看看可视化之后的效果。
分析结论:
-
定价在31.9-39这个区间平均销量最高,为893 -
定价在10元以内的销量竟然高居第二
8.分析避孕套商家数量全国分布关系
统计商家数量还是比较简单,因为我们之前在数据清洗的时候已经只保留了省份数据,所以直接value_counts()就可以得到想要的数据,看看效果如何!
分析结论:
-
避孕套商家前三甲:广东、上海、浙江
9.分析避孕套商家全国平均销量关系
商家全国平均销量关系分析实现原理:我们新创建一个透视表并对销量求平均值,然后再排序,最后生成热力图和柱状图。
-
出乎意料的是山西39个商家平均销量竟然是第一为1535。
三、总结
-
用户偏爱螺纹、颗粒、狼牙等功能 -
凝胶、透明质、免洗这三项均价最贵,超过100大洋 -
价格区间在21-40的商品最多为778款,大约占比31% -
销量在1000以内的最多,大概占比90% -
定价在31.9-39这个区间平均销量最高,为893 -
避孕套商家数量前三甲:广东、上海、浙江 -
山西省平均销量最高为山西
本文分享自微信公众号 - 猪哥Java(pig-python)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。