|瑞幸真的比星巴克的门店还要多?Python爬虫后真相原来是这样.....

前段时间关于瑞幸财务造假被退市新闻闹的沸沸扬扬,而瑞幸此前宣传中有一点引起了我的注意: 在国内瑞幸门店超过星巴克 ,那今天我们来用Python验证一下吧!

如果不借助他人的数据,你能自己算出瑞幸咖啡和星巴克咖啡其各自的门店数量吗?

让你自己算出一个精确的值,你会使用什么方法进行计算一线城市门店数量?

难度高一点点,你怎么样才能知道二线城市的门店总数,甚至是全国的门店数量?

1.下载requests库

开始之前,你要确保Python和pip已经成功安装在电脑上噢。

在终端输入以下命令安装我们所需要的依赖模块:

pip install requests

看到 Successfully installed xxx 则说明安装成功。

2.如何获取门店数?

怎么样,文章开头提出的问题你想到答案了吗?

其实很简单,那就是调用地图的接口进行门店搜索。通过这个方法,我们不仅可以算出门店的数量,还能得到每个门店的对应位置,并且可以用来做后续的数据分析:

所以现在问题就转化为找到有提供搜索接口的地图供应商,而且这个接口得是免费的,因此我找了腾讯地图的接口:

https://lbs.qq.com/

你只需要上去注册账号,申请Key即可调用相关的接口,申请完了记得开webserviceAPI,选择签名校验 的形式调用接口:

3.爬取数据

为了使用API,我们得先初始化请求链接及其所需要的参数:

Key是在你申请API权限的时候就会分配给你的,而sk是在你选择  签名校验 的形式调用接口时分配给你的。

那么我们如何用这两个数据请求接口呢?请看下面这个函数:

首先是将初始化的请求链接拼接起来,然后由于需要签名校验,因此我们得如下进行操作:

GET请求分为:域名,请求路径和参数三个部分,用于签名计算的有:
请求路径:/ws/place/v1/search?
请求参数:boundary=region({},0)&key={}&keyword={} &page_index={}&page_size=20
注意{}是待填充的

1. 首先对参数进行排序:按参数名升序(本例结果为 boundary 在前,key在后,如果第一个字母相同,要依据第二个字母升序):
boundary=region({},0)&key={}(....后面略)

2. 签名计算(sig):
请求路径+”?”+请求参数+SK进行拼接,并计算拼接后字符串md5值,即为签名(sig):
要求:请求参数必须是未进行任何编码(如urlencode)的原始数据
md5(" /ws/place/v1/search?boundary=region({},0)&key={}&keyword={} &page_index={}&page_size=20 你的SK ")

计算得到结果类似为:22dxxxxxxxxxxxxxx2b0bcc0e50

3. 生成最终请求:将计算得到的签名sig,放到请求中(参数名即为:sig):
https://apis.map.qq.com/ws/place/v1/search? boundary=region({},0)&key={}&keyword={} &page_index={}&page_size=20&sig= 22dxxxxxxxxxxxxxx2b0bcc0e50

注意:计算 sig 要使用原始参数值,不要进行任何编码,但最终发送时的参数,是需要时行url编码的

最后拿到返回的值,里面带有所有结果的地理位置及结果的数量。

2.2 按地点返回结果

这一部分其实很简单,就是调用2.1的函数,然后实现分页保存变量,最后输出门店数量,返回数据。

计算一线城市的结果如下:


 

F:\push\20200315>python scrapy.py

瑞幸咖啡 北京 门店总数为:492

瑞幸咖啡 上海 门店总数为:581

瑞幸咖啡 广州 门店总数为:301

瑞幸咖啡 深圳 门店总数为:260

4.汇总结果并保存

接下来我们需要汇总2.2计算到的每个城市的数据,保存到json文件,并计算总数。

最终可以获得一个 瑞幸咖啡.json 的文件,里面存有每个城市的咖啡店精确位置,并输出一个总数,这样调用即可:


 

F:\push\20200315>python scrapy.py

瑞幸咖啡 北京 门店总数为:492

瑞幸咖啡 上海 门店总数为:581

瑞幸咖啡 广州 门店总数为:301

瑞幸咖啡 深圳 门店总数为:260

瑞幸咖啡 一线城市门店总数为:1634

 

星巴克 北京 门店总数为:380

星巴克 上海 门店总数为:797

星巴克 广州 门店总数为:209

星巴克 深圳 门店总数为:201

星巴克 一线城市门店总数为:1587

看来瑞幸咖啡一线城市里的门店数量为:1634 已经超过星巴克的1587 ,不愧是割资本主义国家韭菜,造福中国老百姓的企业啊!

5.扩展

就像文章开头所提到的,如果你需要算出每个城市的咖啡店数量其实也很简单,咱可以调用下面这个接口请求腾讯地图的所有行政区数据,获得所有城市的名称:
https://apis.map.qq.com/ws/district/v1/list

不过我已经dump了一个,文末给出数据链接。

使用这一个,你只需要读取该csv文件提取所有城市名,然后放入cities变量中进行计算,如下代码所示:

请注意一些特殊情况,比如说那个城市没有数据的时候,接口可能不会返回date数据,这时候要用字典的get方法进行处理:


 

# pois = res.json()['data']

pois = res.json().get('data', [])

值得提醒你的是,如果你要计算全国的数据的话,这个方法并不可靠,因为无法避免山寨店的存在,山寨店一样也会被记入到腾讯地图中,而一线城市的监管严格,比较少出现山寨店的情况,因此可以用这个方法计算。

如果想统计全国的店铺数还需要添加一些筛选、清晰手段,这些就留给大家自己思考吧!

源代码和数据链接:

加python学习qq群:775690737  送python零基础入门学习资料+99个源码

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章