基于conv-lstm方法预测共享单车需求

基于conv-lstm方法预测共享单车需求

本期分享下我们小组的数据挖掘期末(划水)大作业,小组成员还有李天豪and张振同学

在这里插入图片描述
主题是:基于conv-lstm方法预测共享单车需求

主要参考的论文是:Bao J, Yu H, Wu J, et al. Short-term FFBS demand prediction with multi-source data in a hybrid deep learning framework[J]. Iet Intelligent Transport Systems, 2019, 13(9): 1340-1347.

大纲

  • 数据来源
    • 单车数据
    • poi数据
  • 实验设置
    • conv-lstm优势
    • 模型设置
  • 实验结果
    • 模型对比
    • 可视化
      • 出行高峰预测
      • 预测总订单量最大的栅格
  • 总结与展望

数据来源

单车数据

单车数据是北京摩拜单车2017年的数据,获取来源:
https://www.biendata.xyz/competition/mobike_practice/

各日骑行量分布
2017-05-19后单车骑行订单突然大幅下降,因此宜使用05-10至05-19日期之间稳定的订单数据

骑行量时间分布
可以看到主要有三个高峰,分别在7:30-8:30,11:30-12:30,17:30-18:30


骑行量空间分布
通过摩拜单车数据在北京市不同行政区的空间分布,可以看到骑行具有空间不均匀性,主要分布于朝阳区,丰台区,海淀区等中心城区,且有沿中心圈层向外辐射递减的趋势,特别是在一些外围区域,订单数据稀少。

所以我们仅针对摩拜单车订单量较多的热点区域进行需求预测,选择的区域如下6×6栅格所示:

栅格示意图

经以上时间和空间筛选后,本次实验共用2422993条订单数据。
各栅格内订单量分布

poi数据

由于无法获取2017年5月10日-2017年5月19日的poi数据,因此利用百度API获取目前的poi数据近似代替,这可能会导致与真实情况有部分出入。在指定的研究区域内共获取155862条poi数据,包括住宅区,地铁站,公交站等类型,数据总体情况如下:

从中可以看到住宅区、美食、购物为主要的三个poi类别,占到了整个poi数量的75%左右。
将poi数据集计到我们划定的6×6栅格里,得到poi的分布情况如下

栅格内兴趣点分布
可以看到poi数据的分布也呈现不均匀分布的特征,中心区poi数量最多且向周围辐射递减。

最后我们将各栅格poi数量换算成各栅格poi比例来作为各个栅格的土地利用情况信息并作为6×6的矩阵输入。
此外,本实验还收集了北京市2017年5月10日-2017年5月19日的日均气温,是否下雨,空气质量数据,数据总体情况如下表3-1 北京市2017年5月10日—2017年5月19日气象数据。

由相关研究可知,是否下雨,平均气温,是否是工作日三者对骑行量影响具有显著性,其中是否下雨影响最大,而本次实验所选日期内均为不下雨,且未能收集到逐小时气温,由于数据质量原因,此次实验不使用气象数据

实验设置

conv-lstm优势


经典的LSTM的state-state采用全连接形式,而ConvLSTM采用卷积的形式。

相比於单纯的LSTM网络,不仅考虑了单个预测单元的信息,还考虑了相邻单元的信息,有效利用了共享单车需求数据的时间和空间信息。

模型设置

将订单数据按照每个栅格每5min进行集计,Poi数据按照栅格进行集计并换算成比例。

再将2017-05-10到2017-05-17数据作为训练,2017-05-18到2017-05-19数据作为测试

然后分三个模型进行了多次实验

  • 模型1:仅利用订单数据的LSTM网络
  • 模型2:仅利用订单数据的Conv-LSTM网络
  • 模型3:融合POI和订单数据的Conv-LSTM网络

模型3结构示意图

实验结果

模型对比

对不同场景的模型采取的整体的评价指标包括MAPE(平均绝对百分比误差),MAE(平均绝对误差),MSE(均方误差),R2(确定系数)。
MAPE,MAE,MSE指标值越小,R2(确定系数)越大,代表预测的越准确。

MAPE,MAE,MSE,R2四个指标都显示出,模型3:融合POI和订单数据(Conv-LSTM)是预测最优的。

可视化

融合POI和订单数据Conv-LSTM网络损失函数(mse)随着训练的变化

融合POI和订单数据Conv-LSTM网络损失函数(mse)随着训练的变化

融合POI和订单数据Conv-LSTM网络评价指标(mae)随着训练的变化

融合POI和订单数据Conv-LSTM网络评价指标(mae)随着训练的变化

模型3:融合POI和订单数据(Conv-LSTM)是预测最优的,下面针对此种方法对预测结果给出更直观的展示。

出行高峰预测

骑行量时间分布
由前文共享单车需求数据的时间分布可知,有早中晚三个出行高峰,我们将预测的时间粒度为5min的数据集计在这三个高峰内并进行可视化(选取的是2017-05-18):

早高峰

午高峰

晚高峰


各个栅格内预测需求与真实需求整体很接近,说明该模型能够较好的预测各高峰时段的共享单车出行需求。

预测总订单量最大的栅格

各栅格内订单量分布
挑出总订单量最大的栅格(栅格标号为22),画出测试集上的预测对比曲线

22号栅格预测需求与真实需求对比图

22号栅格预测需求与真实需求对比图

可以看到早晚高峰时段预测的差距较大,其他时刻预测很准确,由于栅格22处于中心城区,栅格内各种活动模式较为复杂,影响因素很多,本模型只考虑了基本的土地利用信息,且是用2020年的POI信息近似代替,因此可能造成在高峰时段预测偏差较大。

总结与展望

相比於单纯的LSTM网络,使用Conv-LSTM,不仅考虑了单个预测单元的信息,还考虑了相邻单元的信息,有效利用了共享单车需求数据的时间和空间信息,因此预测更为准确。结果表明,所提出的融合POI数据的组合神经网络在三个模型中预测精度是最优的,这证实了将多源数据集纳入共享单车需求预测的好处。

将来,随着越来越多的共享单车出行数据集公开可用,将进一步评估和比较融合POI数据的Conv-LSTM网络在不同情况下(如出行规律、工作日与非工作日)的性能和准确性。


共享单车数据可后台回复: 北京摩拜 获取原始数据

(原始数据的地理位置是以geohash格式给出,需要进一步转换成经纬度值并转换为wgs84座标系。想获取处理完成的数据的同学可以帮忙点个再看,支持一下,发截图到后台获取下载链接)
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章