基於conv-lstm方法預測共享單車需求
本期分享下我們小組的數據挖掘期末(划水)大作業,小組成員還有李天豪and張振同學。
主題是:基於conv-lstm方法預測共享單車需求
主要參考的論文是:Bao J, Yu H, Wu J, et al. Short-term FFBS demand prediction with multi-source data in a hybrid deep learning framework[J]. Iet Intelligent Transport Systems, 2019, 13(9): 1340-1347.
大綱
- 數據來源
- 單車數據
- poi數據
- 實驗設置
- conv-lstm優勢
- 模型設置
- 實驗結果
- 模型對比
- 可視化
- 出行高峯預測
- 預測總訂單量最大的柵格
- 總結與展望
數據來源
單車數據
單車數據是北京摩拜單車2017年的數據,獲取來源:
https://www.biendata.xyz/competition/mobike_practice/
2017-05-19後單車騎行訂單突然大幅下降,因此宜使用05-10至05-19日期之間穩定的訂單數據
可以看到主要有三個高峯,分別在7:30-8:30,11:30-12:30,17:30-18:30
通過摩拜單車數據在北京市不同行政區的空間分佈,可以看到騎行具有空間不均勻性,主要分佈於朝陽區,豐臺區,海淀區等中心城區,且有沿中心圈層向外輻射遞減的趨勢,特別是在一些外圍區域,訂單數據稀少。
所以我們僅針對摩拜單車訂單量較多的熱點區域進行需求預測,選擇的區域如下6×6柵格所示:
經以上時間和空間篩選後,本次實驗共用2422993條訂單數據。
poi數據
由於無法獲取2017年5月10日-2017年5月19日的poi數據,因此利用百度API獲取目前的poi數據近似代替,這可能會導致與真實情況有部分出入。在指定的研究區域內共獲取155862條poi數據,包括住宅區,地鐵站,公交站等類型,數據總體情況如下:
從中可以看到住宅區、美食、購物爲主要的三個poi類別,佔到了整個poi數量的75%左右。
將poi數據集計到我們劃定的6×6柵格里,得到poi的分佈情況如下
可以看到poi數據的分佈也呈現不均勻分佈的特徵,中心區poi數量最多且向周圍輻射遞減。
最後我們將各柵格poi數量換算成各柵格poi比例來作爲各個柵格的土地利用情況信息並作爲6×6的矩陣輸入。
此外,本實驗還收集了北京市2017年5月10日-2017年5月19日的日均氣溫,是否下雨,空氣質量數據,數據總體情況如下表3-1 北京市2017年5月10日—2017年5月19日氣象數據。
由相關研究可知,是否下雨,平均氣溫,是否是工作日三者對騎行量影響具有顯著性,其中是否下雨影響最大,而本次實驗所選日期內均爲不下雨,且未能收集到逐小時氣溫,由於數據質量原因,此次實驗不使用氣象數據。
實驗設置
conv-lstm優勢
經典的LSTM的state-state採用全連接形式,而ConvLSTM採用卷積的形式。
相比於單純的LSTM網絡,不僅考慮了單個預測單元的信息,還考慮了相鄰單元的信息,有效利用了共享單車需求數據的時間和空間信息。
模型設置
將訂單數據按照每個柵格每5min進行集計,Poi數據按照柵格進行集計並換算成比例。
再將2017-05-10到2017-05-17數據作爲訓練,2017-05-18到2017-05-19數據作爲測試
然後分三個模型進行了多次實驗
- 模型1:僅利用訂單數據的LSTM網絡
- 模型2:僅利用訂單數據的Conv-LSTM網絡
- 模型3:融合POI和訂單數據的Conv-LSTM網絡
實驗結果
模型對比
對不同場景的模型採取的整體的評價指標包括MAPE(平均絕對百分比誤差),MAE(平均絕對誤差),MSE(均方誤差),R2(確定係數)。
MAPE,MAE,MSE指標值越小,R2(確定係數)越大,代表預測的越準確。
MAPE,MAE,MSE,R2四個指標都顯示出,模型3:融合POI和訂單數據(Conv-LSTM)是預測最優的。
可視化
融合POI和訂單數據Conv-LSTM網絡損失函數(mse)隨着訓練的變化
融合POI和訂單數據Conv-LSTM網絡評價指標(mae)隨着訓練的變化
模型3:融合POI和訂單數據(Conv-LSTM)是預測最優的,下面針對此種方法對預測結果給出更直觀的展示。
出行高峯預測
由前文共享單車需求數據的時間分佈可知,有早中晚三個出行高峯,我們將預測的時間粒度爲5min的數據集計在這三個高峯內並進行可視化(選取的是2017-05-18):
各個柵格內預測需求與真實需求整體很接近,說明該模型能夠較好的預測各高峯時段的共享單車出行需求。
預測總訂單量最大的柵格
挑出總訂單量最大的柵格(柵格標號爲22),畫出測試集上的預測對比曲線
22號柵格預測需求與真實需求對比圖
可以看到早晚高峯時段預測的差距較大,其他時刻預測很準確,由於柵格22處於中心城區,柵格內各種活動模式較爲複雜,影響因素很多,本模型只考慮了基本的土地利用信息,且是用2020年的POI信息近似代替,因此可能造成在高峯時段預測偏差較大。
總結與展望
相比於單純的LSTM網絡,使用Conv-LSTM,不僅考慮了單個預測單元的信息,還考慮了相鄰單元的信息,有效利用了共享單車需求數據的時間和空間信息,因此預測更爲準確。結果表明,所提出的融合POI數據的組合神經網絡在三個模型中預測精度是最優的,這證實了將多源數據集納入共享單車需求預測的好處。
將來,隨着越來越多的共享單車出行數據集公開可用,將進一步評估和比較融合POI數據的Conv-LSTM網絡在不同情況下(如出行規律、工作日與非工作日)的性能和準確性。
共享單車數據可後臺回覆: 北京摩拜 獲取原始數據
(原始數據的地理位置是以geohash格式給出,需要進一步轉換成經緯度值並轉換爲wgs84座標系。想獲取處理完成的數據的同學可以幫忙點個再看,支持一下,發截圖到後臺獲取下載鏈接)