基於conv-lstm方法預測共享單車需求

基於conv-lstm方法預測共享單車需求

本期分享下我們小組的數據挖掘期末(划水)大作業,小組成員還有李天豪and張振同學

在這裏插入圖片描述
主題是:基於conv-lstm方法預測共享單車需求

主要參考的論文是:Bao J, Yu H, Wu J, et al. Short-term FFBS demand prediction with multi-source data in a hybrid deep learning framework[J]. Iet Intelligent Transport Systems, 2019, 13(9): 1340-1347.

大綱

  • 數據來源
    • 單車數據
    • poi數據
  • 實驗設置
    • conv-lstm優勢
    • 模型設置
  • 實驗結果
    • 模型對比
    • 可視化
      • 出行高峯預測
      • 預測總訂單量最大的柵格
  • 總結與展望

數據來源

單車數據

單車數據是北京摩拜單車2017年的數據,獲取來源:
https://www.biendata.xyz/competition/mobike_practice/

各日騎行量分佈
2017-05-19後單車騎行訂單突然大幅下降,因此宜使用05-10至05-19日期之間穩定的訂單數據

騎行量時間分佈
可以看到主要有三個高峯,分別在7:30-8:30,11:30-12:30,17:30-18:30


騎行量空間分佈
通過摩拜單車數據在北京市不同行政區的空間分佈,可以看到騎行具有空間不均勻性,主要分佈於朝陽區,豐臺區,海淀區等中心城區,且有沿中心圈層向外輻射遞減的趨勢,特別是在一些外圍區域,訂單數據稀少。

所以我們僅針對摩拜單車訂單量較多的熱點區域進行需求預測,選擇的區域如下6×6柵格所示:

柵格示意圖

經以上時間和空間篩選後,本次實驗共用2422993條訂單數據。
各柵格內訂單量分佈

poi數據

由於無法獲取2017年5月10日-2017年5月19日的poi數據,因此利用百度API獲取目前的poi數據近似代替,這可能會導致與真實情況有部分出入。在指定的研究區域內共獲取155862條poi數據,包括住宅區,地鐵站,公交站等類型,數據總體情況如下:

從中可以看到住宅區、美食、購物爲主要的三個poi類別,佔到了整個poi數量的75%左右。
將poi數據集計到我們劃定的6×6柵格里,得到poi的分佈情況如下

柵格內興趣點分佈
可以看到poi數據的分佈也呈現不均勻分佈的特徵,中心區poi數量最多且向周圍輻射遞減。

最後我們將各柵格poi數量換算成各柵格poi比例來作爲各個柵格的土地利用情況信息並作爲6×6的矩陣輸入。
此外,本實驗還收集了北京市2017年5月10日-2017年5月19日的日均氣溫,是否下雨,空氣質量數據,數據總體情況如下表3-1 北京市2017年5月10日—2017年5月19日氣象數據。

由相關研究可知,是否下雨,平均氣溫,是否是工作日三者對騎行量影響具有顯著性,其中是否下雨影響最大,而本次實驗所選日期內均爲不下雨,且未能收集到逐小時氣溫,由於數據質量原因,此次實驗不使用氣象數據

實驗設置

conv-lstm優勢


經典的LSTM的state-state採用全連接形式,而ConvLSTM採用卷積的形式。

相比於單純的LSTM網絡,不僅考慮了單個預測單元的信息,還考慮了相鄰單元的信息,有效利用了共享單車需求數據的時間和空間信息。

模型設置

將訂單數據按照每個柵格每5min進行集計,Poi數據按照柵格進行集計並換算成比例。

再將2017-05-10到2017-05-17數據作爲訓練,2017-05-18到2017-05-19數據作爲測試

然後分三個模型進行了多次實驗

  • 模型1:僅利用訂單數據的LSTM網絡
  • 模型2:僅利用訂單數據的Conv-LSTM網絡
  • 模型3:融合POI和訂單數據的Conv-LSTM網絡

模型3結構示意圖

實驗結果

模型對比

對不同場景的模型採取的整體的評價指標包括MAPE(平均絕對百分比誤差),MAE(平均絕對誤差),MSE(均方誤差),R2(確定係數)。
MAPE,MAE,MSE指標值越小,R2(確定係數)越大,代表預測的越準確。

MAPE,MAE,MSE,R2四個指標都顯示出,模型3:融合POI和訂單數據(Conv-LSTM)是預測最優的。

可視化

融合POI和訂單數據Conv-LSTM網絡損失函數(mse)隨着訓練的變化

融合POI和訂單數據Conv-LSTM網絡損失函數(mse)隨着訓練的變化

融合POI和訂單數據Conv-LSTM網絡評價指標(mae)隨着訓練的變化

融合POI和訂單數據Conv-LSTM網絡評價指標(mae)隨着訓練的變化

模型3:融合POI和訂單數據(Conv-LSTM)是預測最優的,下面針對此種方法對預測結果給出更直觀的展示。

出行高峯預測

騎行量時間分佈
由前文共享單車需求數據的時間分佈可知,有早中晚三個出行高峯,我們將預測的時間粒度爲5min的數據集計在這三個高峯內並進行可視化(選取的是2017-05-18):

早高峯

午高峯

晚高峯


各個柵格內預測需求與真實需求整體很接近,說明該模型能夠較好的預測各高峯時段的共享單車出行需求。

預測總訂單量最大的柵格

各柵格內訂單量分佈
挑出總訂單量最大的柵格(柵格標號爲22),畫出測試集上的預測對比曲線

22號柵格預測需求與真實需求對比圖

22號柵格預測需求與真實需求對比圖

可以看到早晚高峯時段預測的差距較大,其他時刻預測很準確,由於柵格22處於中心城區,柵格內各種活動模式較爲複雜,影響因素很多,本模型只考慮了基本的土地利用信息,且是用2020年的POI信息近似代替,因此可能造成在高峯時段預測偏差較大。

總結與展望

相比於單純的LSTM網絡,使用Conv-LSTM,不僅考慮了單個預測單元的信息,還考慮了相鄰單元的信息,有效利用了共享單車需求數據的時間和空間信息,因此預測更爲準確。結果表明,所提出的融合POI數據的組合神經網絡在三個模型中預測精度是最優的,這證實了將多源數據集納入共享單車需求預測的好處。

將來,隨着越來越多的共享單車出行數據集公開可用,將進一步評估和比較融合POI數據的Conv-LSTM網絡在不同情況下(如出行規律、工作日與非工作日)的性能和準確性。


共享單車數據可後臺回覆: 北京摩拜 獲取原始數據

(原始數據的地理位置是以geohash格式給出,需要進一步轉換成經緯度值並轉換爲wgs84座標系。想獲取處理完成的數據的同學可以幫忙點個再看,支持一下,發截圖到後臺獲取下載鏈接)
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章