2020中國高校計算機大賽·華爲雲大數據挑戰賽正式賽題——船運到達時間預測賽題整理6.21版本(持續更新~)

2020中國高校計算機大賽·華爲雲大數據挑戰賽正式賽題——船運到達時間預測整理分析6.21版本(持續更新~)

寫在前面:大家好!我是練習時長半年的在讀本科生數據小白JerryX,各位數據挖掘大佬有什麼問題和建議多多指教!!歡迎大家多多點贊,多多評論,多多批評指正!!

2020中國高校計算機大賽·華爲雲大數據挑戰賽正式賽賽程不知不覺已經過了三週了,JerryX前一段時間學業比較繁忙,同時也在搞另一個比賽的答辯,所以也沒怎麼做這個比賽,今天開始正式和隊友集結起來開始把高校賽搞起來啦。希望可以和各位優秀隊伍多多交流!!也希望能和大家在接下來一個多月的時間內共同學習、成長!!
我們隊的初步數據分析鏈接參見隊友之前整理的blog

0 背景簡介

在企業全球化業務體系中,海運物流作爲其最重要的一項支撐。其中,船運公司會和數據供應公司進行合作,對運輸用的船通過GPS進行定位以監控船的位置;在運輸管理的過程中,貨物到達目的港的時間是非常重要的一項數據,那麼需要通過船運的歷史數據構建模型,對目的港到達時間進行預測,預測時間簡稱爲ETA(estimated time of arrival),目的港到達時間預測爲ARRIVAL_ETA。
本次大賽提供歷史運單GPS數據、歷史運單事件數據、港口座標數據,預測貨物運單的到達時間,對應“歷史運單事件”數據中EVENT_CODE字段值爲ARRIVAL AT PORT時EVENT_CONVOLUTION_DATE的時間值。
在這裏插入圖片描述

1 比賽數據

在這裏插入圖片描述
大賽提供脫敏後的訓練數據及測試數據,訓練數據集包括:歷史運單GPS數據、歷史運單事件數據、港口座標數據,這些數據主要用於參賽隊伍訓練模型,制定預估策略;測試運單數據爲不同運單、運輸過程中的不同位置所構成,供選手測試對應的ETA時間。
貨物運單在船運過程中,會產生大量的GPS運單數據,記錄爲“歷史運單GPS數據”;貨物運單在船運過程中離開起運港、到達中轉港、到達目的港等關鍵事件,記錄爲“歷史運單事件數據”;“港口的座標數據“爲與運單船運相關的港口座標信息。
允許選手合理增加與題目相關的外部數據進行糾正,如大賽提供的港口座標數據存在偏差時可自行補充數據糾正。
在這裏插入圖片描述

1.1 歷史運單GPS數據

歷史運單GPS數據描述每個運單在船運的過程中,所在船產生的GPS位置的相關信息。
在這裏插入圖片描述

數據說明:
每個運單表示一次運輸的運輸單號,不會重複使用,一次運輸過程中的多條GPS數據擁有相同的運輸單號。船號爲運單貨物所在的船編號,會重複出現在不同次運輸的GPS數據中。需要注意的是GPS數據中可能會有異常的GPS,可能且不限於如下問題:
(1) GPS座標在陸地,或者有些港口是內陸的港口。
(2) GPS漂移:兩點距離過大,超過船的行駛能力。
(3) GPS在部分地區的比較稀疏(比如南半球、敏感海域)。
(4) 最後的GPS點可能和港口的距離較遠(比如塞港時,或者臨近目的港時已無GPS數據)。
(5) speed字段之後數據可能會有少量缺失(如GPS設備短暫異常)。
在這裏插入圖片描述

1.2. 歷史運單事件數據

歷史運單事件數據描述每個運單在船運的過程中,與港口相關的關鍵信息,如離開起運港、到達目的港等。
在這裏插入圖片描述
在這裏插入圖片描述

1.3 港口座標數據

港口座標數據描述每個運單在船運的過程中涉及的港口位置信息。
在這裏插入圖片描述
在這裏插入圖片描述

1.4. 測試運單數據

測試運單數據爲運單運輸過程中的不同位置點所構成,供選手測試對應的ETA時間。測試運單數據如下表描述。
在這裏插入圖片描述
在這裏插入圖片描述

2 選手提交結果

所有參與競賽的選手登錄到大賽平臺,提交結果數據,具體提交格式要求:
在這裏插入圖片描述
其中,ETA爲選手評估的時間值;creatDate爲該表或該CSV文件創建時間, 用於區別多次提交數據。對於未提交的運單ETA,後臺統一取timestamp時間計算。
在這裏插入圖片描述
1. 初賽
大賽初賽提供:

(1) 訓練數據:1.5萬量級運單對應的歷史運單GPS數據、歷史運單事件數據和港口座標數據,用於模型的訓練
(2) 測試數據:2萬量級測試數據,由不同運單的不同GPS位置所組成。
選手通過訓練數據訓練好的模型,對測試數據進行預測和提交結果,初賽排行榜以選手的提交結果評分爲準。

2. 複賽
大賽複賽提供:

(1) 訓練數據:1.8萬量級條運單對應的歷史運單GPS數據、歷史運單事件數據和港口座標數據,用於模型的訓練。
(2) 測試數據:2.5萬量級條測試運單數據,由不同運單的不同GPS位置所組成。
選手通過訓練數據訓練好的模型,對測試數據進行預測和提交結果,複賽排行榜以選手的提交結果評分爲準。

3 評估標準

選手提交結果的評估指標是MSE,即ARRIVAL AT PORT預測時間ETA與真實時間ATA的差距的平方和,計算如下:
在這裏插入圖片描述
其中:
(1) **hETA爲同一個貨物運單到達目的港口的預測所需時間。**選手提供DATE時間,評測程序轉換爲單位所需時間,單位:小時。
(2) **hATA爲同一個貨物運單到達目的港口的實際所需時間,**大賽測評程序後臺保存,用於測評運算。
(3) **ETA_NUM爲預測的ETA數量,測評程序後臺運算,**大賽測評程序後臺保存,用於測評運算。
最終使用MSE值作爲參賽選手得分,MSE值越小,排名越靠前。
示例說明:
如某一貨物運單路由CNSHK-MYPKG-MYTPP,已離開起運港CNSHK,SHIPMENT ONBOARD DATE爲2019/09/05 16:33:17,通過經緯度等信息判斷船位置在CNSHK與MYPKG之間,根據,預測目的港口MYTPP的時間,提交的ETA:”2019/09/18 22:28:46”。
在這裏插入圖片描述

4 平臺使用及代金券

在這裏插入圖片描述

5 週週星大佬團隊思路整理

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

感謝大家的耐心閱讀,有什麼建議歡迎大家在評論裏提出來哦~~
這篇文章會持續更新,記錄自己的一點心得和思考~
也請大家多多指教!!希望能和大家一同學習進步!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章