京東城市時空數據引擎—JUST 如何通過軌跡數據恢復小區路網

雙十一將至,又到了網購的狂歡季!伴隨互聯網的高速發展,中國電子商務交易總額已從2008年的3.14萬億元增長至2018年的31.63萬億元,網上零售規模從0.13萬億元猛增到9萬億元,中國已成爲名副其實的“全球第一大網絡零售大國”。

與之相隨的,是快遞行業的迅猛發展,據國家郵政局2019年4月11日發佈的《2018年中國快遞發展指數報告》顯示——2018年,我國快遞業務量達到507.1億件,人均快件使用量爲36件。

多年來,京東一直以良好的物流體驗而馳騁業界,業務發展迅速。隨着智能技術在物流終端的普遍應用,京東累積了大量的智能終端實時軌跡數據,如今在京東購物時,只要點開京東APP的訂單跟蹤頁,就可以實時地查看小哥的位置,每一時刻小哥位置的組合,就是一組軌跡數據,小哥每天的工作軌跡,就由這組軌跡數據,一五一十地記錄了下來。

同時,除了快遞小哥之外,外賣小哥、地推小哥、家政小姐姐等,也在我們的生活中扮演了重要的角色,他們每天要和快遞小哥一樣,不斷在我們生活的小區中辛苦地穿梭,那麼我們有沒有想過,他們是如何規劃自已一天的工作路徑順序的?或者說,有沒有一種方式,幫助他們能夠快速地規劃自己一天工作的最優路徑呢?

其實,對於他們而言,雖然電子導航對於主幹道的路網信息很準確,但對於小區內的路網信息並不完善,不少小區道路並未在電子導航中被標識出來,這些信息對於他們每天的工作卻特別重要。

如果小區內的地圖數據本身就是錯的或者缺失的,又談何路徑的優化?

近日,京東城市通過自研的時空數據引擎—JUST,解決的正是“路徑優化”缺少基礎信息的難題,即在主幹道電子地圖趨於完善的同時,如何對小區內相對欠缺的路網電子地圖進行修復,呈現出地圖上缺失的道路,以得到精準的路網地圖,並預測每條道路的通行時間,來優化路徑,提高整體工作效率,提升客戶體驗。

核心難點

目前,市面上大多數的電子導航主要爲主幹道的信息,對於小區級路網數據,信息並不完善,且由於小區內路況複雜,有些爲步行道,有些爲機動車道,導航的結果並不準確,這也造成實際的通行時間處於未知狀態。

解決方式

爲了以更低的成本、更高的效率得到更爲精準的數據,我們通過對北京市某區域數終端軌跡數據進行採樣,來對小區內相對欠缺的路網電子地圖進行修復,呈現出地圖上缺失的道路,進行細粒度的路網、通行時間和通行模式的採集和計算。

實驗結果

通過採樣後,我們得到了如下的數據:

原本只有96.8千米的路網,經過採集之後,擴充爲166.3千米,恢復路網達69.5千米,恢復路網增益達71.7%。恢復的小區內的細粒度的電子地圖,可帶來較大的數據價值。

根據民政部官網統計,目前中國大陸的地級行政區有333個,每個行政區每年都要爲粗顆粒度的主幹道路網進行採購,按照行業內的平均價格,目前每年每個地級市要花費10萬塊來採購更新粗顆粒度的路網數據來算,我們可以得出這個數字——10萬/年/地級市 × 333 = 3330萬/年,而細顆粒度的小區級別路網採購成本更高,業內價格至少爲粗粒度採購價格的5倍,如此算來,細粒度的採購成本保守估計爲——3330萬/年(主幹道, 車輛) * 5(小區無法行車,成本更高) = 16650萬元/年。也就是說,我們這種方法每年可帶來可觀的數據價值,並且可以憑藉這些數據來產生更多的經濟價值。

技術優勢

其實,此前也有相關的研究人員做過此類實驗,但往往會遇到以下三個問題:

1.小區內的路網複雜,海量智能終端每天的持續記錄,往往會產生TB級別的海量軌跡數據;

2.由於智能終端的攜帶者在不停的移動,數據以每3秒的頻次來更新,所以數據頻率更新非常快;

3.由於GPS的精度問題,可能會造成5到15米的誤差,這對於軌跡數據最終的精確度會產生很大影響。

針對數據量大、更新頻率高的痛點,京東城市採用了自研的時空大數據引擎——JUST,解決了現有機器學習和雲計算處理能力達不到有效處理時空數據的痛點。

相比於傳統的數據處理方式,JUST在底層的數據庫之上,加入了各類的時空數據建模的能力和常用的時空/軌跡數據預處理能力、索引能力,支持類似於SQL的時空查詢operator來方便數據工程師的使用,此舉極大地提高了數據分析和挖掘的效率,實驗數據顯示軌跡數據查詢比傳統的系統快了100-1000倍,解決了數據量大、更新頻率高的問題。目前,相關論文已被國際頂級學術會議收錄,得到了行業內的極大關注。(TrajMesa: A Distributed NoSQL Storage Engine for Big Trajectory Data, ICDE 2020, CCF A類,國際頂級會議))

針對GPS精度問題(由於建築、橋樑等因素,GPS定位可能有5~15米的誤差),該項研究的解決方案共分爲3步:

首先是輸入海量的智能終端軌跡數據,以彌補缺失的小區內細粒度的路網數據。

第二是對軌跡數據進行過濾,刪除或者修正那些由於GPS精度問題而帶來的誤差數據;並對軌跡進行分段,將有效的數據進行提煉,同時加快後續的數據處理速度;最後將軌跡地圖進行匹配,減少誤差的產生,

第三是得到科學的處理後的軌跡數據後,對電子地圖進行軌跡修復,通過特徵抽取、軌跡數據道路轉換、中心線提取、路網整合和精細化的數據處理,恢復細粒度的小區路網。

值得一提的是,該模型也是業內第一個基於深度學習利用軌跡數據恢復路網的地圖修復算法模型,實驗結果顯示,採用我們的方法,F1值(準確率和召回率的調和平均值,計算公式爲:F1=2*準確率*召回率/(準確率+召回率))較傳統方法有顯著提升。

除了應用於本文的項目外,JUST引擎作爲城市操作系統的重要組成部分,已經在京東城市內部的各個項目中(物流地產選址和物流軌跡挖掘),以及在南通、雄安等外部得到了應用。最近也開放了公測版本給外部的研究人員進行測試(http://just.urban-computing.cn),歡迎各位體驗。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章