Hetero-ConvLSTM: A Deep Learning Approach to Traffic
Accident Prediction on Heterogeneous Spatio-Temporal Data****(****KDD2018****)
Author: Zhuoning Yuan, Xun Zhou, Tianbao Yang
中文提示:交通事故預測
摘要:
預測交通事故是改善交通和公共安全以及安全路線的關鍵問題。由於空間和時間事故的稀疏性以及環境的空間異質性(例如,城市與農村),這個問題具有挑戰性。 大多數先前由領域研究人員進行的交通事故預測研究只是在有限數據上應用經典預測模型,而沒有恰當地解決上述挑戰,從而導致性能並不令人滿意。 最近的一些小型作品試圖將深度學習用於交通事故預測。 然而,他們要麼忽略時間信息,要麼僅使用來自小而均勻的研究區域(城市)的數據,沒有同時正確處理空間異質性和時間自相關。
在本文中,我們使用卷積長短期記憶(ConvLSTM)神經網絡模型對交通事故預測問題進行了全面研究。8年來,愛荷華州的大型數據集中提取了許多詳細的功能,如天氣,環境,道路狀況和交通量。爲了解決數據中的空間異質性挑戰,我們提出了一個Hetero-ConvLSTM框架,其中在基本的ConvLSTM模型之上實現了一些新穎的想法,例如合併空間圖特徵和空間模型集合。 對整個愛荷華州的8年數據進行的大量實驗表明,提出的框架可以做出相當準確的預測,並顯着提高基線方法的預測準確性。
爲了解決數據中的空間異質性挑戰,我們提出了一個Hetero-ConvLSTM框架,其中在基本的ConvLSTM模型之上實現了一些新穎的想法,例如合併空間圖特徵和空間模型集成。
事故發生原因多:
隨機因素+常見因素
環境因素
- 燈光照明因素
- 天氣
- 人爲環境:當前車流量, 當前車速
- 道路結構 彎曲程度 車道數
駕駛人因素:
- 駕駛人疲勞、分心
- 駕駛車速過快
- 汽車拋錨
城鎮影響因素不同。 往年的工作沒有考慮空間異質性和時間自相關,或使用傳統的迴歸方法。 事故多發地:Interasection 交叉路口。 大橋、河流 道路彎曲度高
研究方法:
將一個州分成網格狀
將車流量、道路狀況、降水量、溫度、衛星地圖收集起來並匹配到網格中去。
給定交通事故的次數和其他城市或環境的特徵,我們預測未來時隙中網格中發生交通事故的次數。
空間深度學習——ConvLSTM
卷積 LSTM
使用數據
1 2006-2013 8年的摩托車碰撞數據 道路情況
2 高分辨率的降水量數據 4km範圍每小時的降水量 8026瓦?
3 高速(主幹道)天氣信息系統 溫度和風速風向
4 路網結構 包括年日均交通量(AADT)
5 衛星圖數據 從Google Earth獲取
6 交通快照數據 記錄路口每個地方的雙向車流量
方法:
劃分網格 5km*5km 1天一個時隙 用前t-1天預測第t天的
Laplacian eigenmaps and spectral techniques for embedding and clustering
拉普拉斯矩陣:https://blog.csdn.net/v_JULY_v/article/details/40738211
S 空間劃分 T 時間劃分
C(s,t)發生次數(標籤) F(s,t)特徵
特徵提取:
時不變特徵:
- 路網mask 把道路分割出來置爲1
- 道路狀態特徵 交叉路口的數量、車道數、道路功能、道路彎曲、AADT 年日均交通量
- 谷歌衛星圖
時變特徵:
1. 降水量 4km
2. 天氣 溫度(對附近k站點求均值,將一天中的均值作爲結果)、風速、風向(?)、露點
3. 車流量:對於每個grid網格,偵測3個最近的camera統計數據,記錄每小時網格路段中的流量
4. 日期數據包括:日/年 日/周 月 季度 是否節日
空間圖特徵
人口密度不同所產生的交通事故分佈不同
G(V,E) 頂點和邊 拉普拉斯矩陣
L=D-W(D爲圖的度矩陣,W是圖的鄰接(邊與邊的鄰接關係,0爲斷開,1爲連着)矩陣)
先寫出W 然後把每列元素加起來放在對角線成爲D
L=D-W****得到拉普拉斯矩陣。
對L進行特徵值分解,分解到對應的特徵向量 令V爲特徵向量m*K(k個重要特徵,這裏k=10)用每行的V去生成一個新的特徵,對應於每個路段,表徵道路的拓撲結構。
其過程和譜聚類相似。
對於每個網格中有多個路段的,使用最長的路段作爲其特徵表示,這種近似是合理的,因爲同一網格單元中的路段通常是連接的,並且往往具有非常相似的空間圖形特徵。這裏是10個時不變的空間圖特徵。
此處該特徵具有一定的語義信息。
特徵值分析
卷積LSTM
Input-to-state state-to-state transitions
ConvLSTM單元的輸入到狀態和狀態到狀態的轉換包含輸出三維張量的卷積運算。
雖然我們結合了第4.3節中詳述的SpatialGraph功能,但由於環境條件的變化,模型精度可能會受到影響。 同時訓練單個大型ConvLSTM模型可能需要過多的時間。
使用滑動窗口解決 不同參數的窗口學習網絡模型
一個單獨的cell
一個單獨的cell
ConvLSTM網絡結構
提出了Hetero-ConvLSTM框架。首先,我們使用移動窗口獲取研究區域中子區域的數據,併爲每個具有不同參數的窗口學習ConvLSTM網絡模型。 選擇窗口的大小使得可以在合理的時間內訓練模型,同時該區域仍然足夠大以包括足夠的訓練樣本。 在我們的例子中,我們選擇一個大小爲32×32的區域。
對於每一個區域的窗口,我們建立一ConvLSTM模型。4層 ConvLSTM 每一層有128個濾波器(核)來抽取特徵。
兩層之間使用BN(批歸一化層)加速訓練過程。對於逐點預測,我們串聯所有輸出並讓他們變成1*1的前向卷積層來爲每一步時間t生成二維的映射。
用滑動窗去訓練模型每個窗口爲32*32,滑動步長爲16,所以每次都有50%的覆蓋。最後採用加權的方法去結合。 而每個區域Si的prediction值可以由這塊區域所被覆蓋的window加權得到,這個權重可以由線性迴歸去學習得到。
實驗部分:
用過去7天的數據去預測後7天的交通事故數量。
14幀,7幀訓練,7幀測試。前面2006-2012爲訓練集,2013作爲測試集。 訓練集中10%作爲驗證集。
Metric:MSE CE(交叉熵) RMSE
對於每一個region,我們每次都添加1-2個特徵組並且去計算MSE、CE、RMSE。
Urban區域:RN V RC CL 可以帶來誤差降低;
E 空間圖特徵影響弱 可能異質性較低
RA(rainfall) RW(road weather,wind speed/temperature)E 降低誤差
Cross-k 函數是 兩種對象空間的聚類傾向的度量
創新點:
- 首次利用空間的多源數據、使用深度學習模型去預測 空間異質數據
- 將城鎮結合起來,預測整體的下一時段的危險圖,預測結果是次數。
- 用模型融合的方式結合若干模型,其中使用滑動窗的方法,通過線性迴歸得到滑動窗所佔的權重,一個區域s由多個滑動窗覆蓋,最終由其覆蓋的幾個滑動窗加權得到結果。
- 對不同的參數設置、特徵集等進行實驗,發現鄉村事故發生往往和天氣和空間圖特徵有關,城市往往和道路情況、交通流量、節假日信息有關。
- 使用空間圖,引入拉普拉斯矩陣和特徵值分析的方法,對路網中各個部分的圖特徵進行提取,使得其具有空間語義特徵。