基於conv-lstm方法預測共享單車需求

原創

2020-06-28 17:48

基於conv-lstm方法預測共享單車需求

本期分享下我們小組的數據挖掘期末(划水)大作業，小組成員還有李天豪and張振同學。

主題是：基於conv-lstm方法預測共享單車需求

主要參考的論文是：Bao J, Yu H, Wu J, et al. Short-term FFBS demand prediction with multi-source data in a hybrid deep learning framework[J]. Iet Intelligent Transport Systems, 2019, 13(9): 1340-1347.

大綱

數據來源
- 單車數據
- poi數據
實驗設置
- conv-lstm優勢
- 模型設置
實驗結果
- 模型對比
- 可視化
  - 出行高峯預測
  - 預測總訂單量最大的柵格
總結與展望

數據來源

單車數據

單車數據是北京摩拜單車2017年的數據，獲取來源：
https://www.biendata.xyz/competition/mobike_practice/

2017-05-19後單車騎行訂單突然大幅下降，因此宜使用05-10至05-19日期之間穩定的訂單數據

可以看到主要有三個高峯，分別在7:30-8:30，11:30-12:30，17:30-18:30

通過摩拜單車數據在北京市不同行政區的空間分佈，可以看到騎行具有空間不均勻性，主要分佈於朝陽區，豐臺區，海淀區等中心城區，且有沿中心圈層向外輻射遞減的趨勢，特別是在一些外圍區域，訂單數據稀少。

所以我們僅針對摩拜單車訂單量較多的熱點區域進行需求預測，選擇的區域如下6×6柵格所示：

經以上時間和空間篩選後，本次實驗共用2422993條訂單數據。

poi數據

由於無法獲取2017年5月10日-2017年5月19日的poi數據，因此利用百度API獲取目前的poi數據近似代替，這可能會導致與真實情況有部分出入。在指定的研究區域內共獲取155862條poi數據,包括住宅區，地鐵站，公交站等類型，數據總體情況如下：

從中可以看到住宅區、美食、購物爲主要的三個poi類別，佔到了整個poi數量的75%左右。
將poi數據集計到我們劃定的6×6柵格里，得到poi的分佈情況如下

可以看到poi數據的分佈也呈現不均勻分佈的特徵，中心區poi數量最多且向周圍輻射遞減。

最後我們將各柵格poi數量換算成各柵格poi比例來作爲各個柵格的土地利用情況信息並作爲6×6的矩陣輸入。
此外，本實驗還收集了北京市2017年5月10日-2017年5月19日的日均氣溫，是否下雨，空氣質量數據，數據總體情況如下表3-1 北京市2017年5月10日—2017年5月19日氣象數據。

由相關研究可知，是否下雨，平均氣溫，是否是工作日三者對騎行量影響具有顯著性，其中是否下雨影響最大，而本次實驗所選日期內均爲不下雨，且未能收集到逐小時氣溫，由於數據質量原因，此次實驗不使用氣象數據。

實驗設置

conv-lstm優勢

經典的LSTM的state-state採用全連接形式，而ConvLSTM採用卷積的形式。

相比於單純的LSTM網絡，不僅考慮了單個預測單元的信息，還考慮了相鄰單元的信息，有效利用了共享單車需求數據的時間和空間信息。

模型設置

將訂單數據按照每個柵格每5min進行集計，Poi數據按照柵格進行集計並換算成比例。

再將2017-05-10到2017-05-17數據作爲訓練，2017-05-18到2017-05-19數據作爲測試

然後分三個模型進行了多次實驗

模型1：僅利用訂單數據的LSTM網絡
模型2:僅利用訂單數據的Conv-LSTM網絡
模型3：融合POI和訂單數據的Conv-LSTM網絡

實驗結果

模型對比

對不同場景的模型採取的整體的評價指標包括MAPE（平均絕對百分比誤差）,MAE（平均絕對誤差）,MSE（均方誤差）,R2（確定係數）。
MAPE,MAE,MSE指標值越小，R2（確定係數）越大，代表預測的越準確。

MAPE,MAE,MSE,R2四個指標都顯示出，模型3：融合POI和訂單數據（Conv-LSTM）是預測最優的。

可視化

融合POI和訂單數據Conv-LSTM網絡損失函數（mse）隨着訓練的變化

融合POI和訂單數據Conv-LSTM網絡評價指標（mae）隨着訓練的變化

模型3：融合POI和訂單數據（Conv-LSTM）是預測最優的，下面針對此種方法對預測結果給出更直觀的展示。

出行高峯預測

由前文共享單車需求數據的時間分佈可知，有早中晚三個出行高峯，我們將預測的時間粒度爲5min的數據集計在這三個高峯內並進行可視化（選取的是2017-05-18）：

各個柵格內預測需求與真實需求整體很接近，說明該模型能夠較好的預測各高峯時段的共享單車出行需求。

預測總訂單量最大的柵格

挑出總訂單量最大的柵格（柵格標號爲22），畫出測試集上的預測對比曲線

22號柵格預測需求與真實需求對比圖

可以看到早晚高峯時段預測的差距較大，其他時刻預測很準確，由於柵格22處於中心城區，柵格內各種活動模式較爲複雜，影響因素很多，本模型只考慮了基本的土地利用信息，且是用2020年的POI信息近似代替，因此可能造成在高峯時段預測偏差較大。

總結與展望

相比於單純的LSTM網絡，使用Conv-LSTM，不僅考慮了單個預測單元的信息，還考慮了相鄰單元的信息，有效利用了共享單車需求數據的時間和空間信息，因此預測更爲準確。結果表明，所提出的融合POI數據的組合神經網絡在三個模型中預測精度是最優的，這證實了將多源數據集納入共享單車需求預測的好處。

將來，隨着越來越多的共享單車出行數據集公開可用，將進一步評估和比較融合POI數據的Conv-LSTM網絡在不同情況下（如出行規律、工作日與非工作日）的性能和準確性。

共享單車數據可後臺回覆： 北京摩拜 獲取原始數據

（原始數據的地理位置是以geohash格式給出，需要進一步轉換成經緯度值並轉換爲wgs84座標系。想獲取處理完成的數據的同學可以幫忙點個再看，支持一下，發截圖到後臺獲取下載鏈接）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基於conv-lstm方法預測共享單車需求

基於conv-lstm方法預測共享單車需求

大綱

數據來源

單車數據

poi數據

實驗設置

conv-lstm優勢

模型設置

實驗結果

模型對比

可視化

出行高峯預測

預測總訂單量最大的柵格

總結與展望

C#開源的兩款功能強大的錄屏神器

認知提升的方法

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

Spark學習筆記（二）：RDD編程基礎

如何加載訓練完畢後的模型文件繼續訓練模型

做完線性迴歸後應該知道的知識

Python3正則匹配

pandas學習（三）：數據拼接、數據合併和數據聚合

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結