基於GPS數據建立隱式馬爾可夫模型預測目的地

Trip destination prediction based on multi-day GPS data

——基於GPS數據預測目的地

 

  論文鏈接:http://www.zdoubleleaves.cn/paper/Trip%20destination%20prediction%20based%20on%20multi-day%20GP.pdf

  這是一篇在2019年,由吉林交通大學團隊發表在elsevier期刊上的一篇論文。在論文中,他們基於GPS數據,使用不同的方法建立了多個預測目的地的模型,進行對比試驗,最終提高了正確率,取得了很好的效果。

 

0. 概括

  基於8周、10人的GPS數據,在隱式馬爾可夫模型和習慣預測模型的基礎上,作者建立了一個可以預測出行目的地的模型,該模型大大提高了預測的精度。最重要的他們發現,人們出行關於終點的選擇不僅依賴於終點和起點的依賴關係,而是在連續多天、多週中出行的慣性。他們對於這一點做了實驗,最後證明了慣性,在週末是決定兩個相鄰的位置是否是終點的最重要因素,在工作日是決定連續多天出行的重要因素。

 

1. 引言

    第二部分對於相關工作進行了介紹;第三部分介紹了GPS數據的預處理工作和關於終點選擇的基本特徵;第四部分介紹了這個使用馬爾可夫鏈和基於喜好的pre-trip終點預測模型;第五部分他們介紹了隱式的馬爾可夫模型,用於建立during-trip終點預測模型;第六部分對於文章內容做了總結,並進行了展望。

    在引言中提到了兩類終點預測模型,pre-trip和during-trip,也就是在旅途前和在旅途中進行重點預測。前者可以用於擁擠位置預測與分析(crowded location forecasting and analyzing),後者可以用於GPS導航,可以自動爲用戶推薦一些地點。

 

2. 研究現狀

    Ashbrook and Starner’s study [2]第一次提出使用馬爾可夫模型基於GPS數據預測終點;Ashbrook et al.[3]提出了使用隱式的馬爾可夫模型預測終點,結果大幅提高了精度。但是這篇文章中的精度並不穩定,從70%~94%都有。作者認爲可能是由於沒有考慮週末和工作日;Alvarez-Garcia et al.[1]也提出了一種基於隱式的馬爾可夫鏈的預測模型,這個模型考慮進去了更多的特徵例如支持點、訪問頻率等。Huang et al.[4]除了使用gps數據,還考慮了其他的因素例如地理、社會經濟信息等,他建立了一Mixed-effects logit模型;還有一些研究者使用貝葉斯推理、使用相鄰的道路推理、使用行程的特徵推理等等。

    根據統計的結果,作者將慣性定義爲由以下三個與以往習慣相關的因素:相鄰終點之間的慣性,相鄰天之間的慣性,以及相鄰周之間的慣性(主要是指,比如,每週一都要去超市買菜,每週日都要去教堂做禮拜之類的情景)。他利用這三個因素作爲預測模型的三個變量,改善了pre-trip模型,除此之外,他利用支持點(the support points)用於during-trip預測,用於保存和繼續調整模型。最後他將時間分爲週末和工作日再次訓練預測模型。

 

3. 數據處理

    數據來源:數據集來自2017年長春10位志願者提供的連續8周的GPS數據。前六週的數據用於訓練,後兩週的模型用於測試結果。除此之外,還讓10位志願者填寫了調查問卷,用於測試和訓練結果。

    數據處理:首先,根據時間長度、速度、區域範圍,對於GPS數據進行篩選;之後,確定經常訪問的區域;最後將數據集根據工作日和週末再分開。

    分析區域的訪問頻率:這是數據處理的一個步驟,作者對於這一部分進行了詳細說明。區域的訪問頻率,作者分爲了三類:同一天內、一週內、多周內。對於同一天內的訪問頻率統計,作者將一天劃分成了5個時段進行統計;對於同一周內的訪問頻率統計,作者將一週劃分成工作日和週末兩中情況,分別對這兩種情況的每一天的相同時段的次數進行統計;對於多周之間的統計,統計不同周的相同星期的相同時間的訪問次數。

    確定支持點(the support points):支持點是具有特殊的特徵的GPS點,用於GPS數據處理,可以代表某一路線。某一直路線含有一到兩個支持點,每條曲路線只有一個支持點。文章中給出了一種求支持點的方法。根據引用的文獻[19,20],由於道路網絡中相鄰交叉點的距離是500m,所以選擇500m作爲閾值。在計算直路線的支持點時,如果路線L(m,n)長度小於500米時,選擇第(m+n)/2個點作爲L(m,n)的支持點,如果長度大於500米,那麼選擇第m+3個點和第n-3個點作爲這段路線的支持點。如果GPS數據點中超過連續四個點的步長小於30,那麼說明這是一條曲路線。對於曲路線,選擇相對於最後一個點,步長變化最大的一個點作爲支持點。Fig.1 和Fig.2給出了兩種求支持點路線的示意圖。

 

 

 

 

4. pre-trip終點預測

    通過之前的工作,得到了不同地區的訪問頻率,這樣就可以檢驗作者上文中定義的慣性——相鄰終點之間的慣性,相鄰天之間的慣性,以及相鄰周之間的慣性。在相鄰終點中間的慣性使用馬爾可夫鏈進行調整;在相鄰天和相鄰周之間的慣性可以用之前得到的不同種類的訪問頻率表示。基於多項式邏輯模型,對三個習慣相關因素的影響進行定量比較。然後,將通過考慮所有三個因素來預測出行前目的地。

    作者基於馬爾可夫鏈和習慣模型(Habit-based model)完成了pre-trip終點預測。

    馬爾可夫鏈:使用訪問頻率矩陣,矩陣規模是N*N,N表示該用戶訪問的終點個數,以及初始狀態矩陣,矩陣規模也是N*N。前六週的GPS數據用於調整馬爾可夫鏈,根據初始狀態矩陣和在之前得到的訪問頻率較高的終點矩陣S(具體內容見論文4.1節,這裏只是大致說一下)可以得到最終的結果,轉移概率矩陣A。然後使用後兩週的數據進行測試,工作日和週末的預測正確率是74%和63%,作者推測原因是人們在工作日的出行更具有規律。

    習慣模型:爲了提高馬爾可夫鏈的精度,加入用戶之前的旅遊習慣進行分析,不僅僅只考慮相鄰區域之間的轉移慣性,加入了相鄰天和相鄰周之間的慣性作爲變量。使用多項式邏輯模型(MNL)完成上述工作。作者在MNL中加入馬爾可夫轉移概率和一週內、多周內的不同地點的訪問頻率作爲參數進行訓練。

 

5.during-trip重點預測

    爲了實現實時的預測,作者使用隱式的馬爾可夫模型(HMM)進行訓練,根據之前統計的不同地區的訪問頻率和支持點,設置初始狀態和參數,(具體過程見論文5.1節)可以讓我們得到GPS數據序列的隱藏狀態,也就是實時的終點。根據HMM的估計結果,頻繁訪問的目的地具有最大的轉移概率被確定爲下一個目的地。最終結果顯示在工作日和週末的重點預測中,正確率分別是91%和85%,相比馬爾可夫鏈模型有了顯著的提高,這說明了引入支持點對於正確率有很大的效果。但是想比習慣模型,在工作日的預測正確率卻沒有顯著的提高,作者認爲,這說明了在工作日引入支持點和使用慣性進行預測的效果相同。所以,實驗證明了,在週末這種經常進行不是很有規律的出行的情況下,引入支持點的效果比使用慣性進行預測的效果更好。

 

6. 總結

   作者將週末和工作日的數據分開,使用馬爾可夫模型、MNL模型對於pre-trip終點預測進行了實現;使用隱式馬爾可夫模型對於during-trip終點預測模型進行了實現。最終正確率相比之前的研究取得了很好的效果。

   作者說,這篇論文的侷限是沒有考慮到可能影響出行目的地的因素選擇,如交通狀況和一些管理策略,如區域擁堵收費。實時交通狀況和交通管理政策將是今後研究的重點之一。在除了預測出行目的地外,預測出行路線也非常重要,其中與習慣有關的因素也應該考慮。在未來的研究中,作者將嘗試利用收集到的多日目的地選擇數據在其他城市,對本文的結果進行驗證。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章