2020中国高校计算机大赛·华为云大数据挑战赛正式赛题——船运到达时间预测赛题整理6.21版本(持续更新~)

2020中国高校计算机大赛·华为云大数据挑战赛正式赛题——船运到达时间预测整理分析6.21版本(持续更新~)

写在前面:大家好!我是练习时长半年的在读本科生数据小白JerryX,各位数据挖掘大佬有什么问题和建议多多指教!!欢迎大家多多点赞,多多评论,多多批评指正!!

2020中国高校计算机大赛·华为云大数据挑战赛正式赛赛程不知不觉已经过了三周了,JerryX前一段时间学业比较繁忙,同时也在搞另一个比赛的答辩,所以也没怎么做这个比赛,今天开始正式和队友集结起来开始把高校赛搞起来啦。希望可以和各位优秀队伍多多交流!!也希望能和大家在接下来一个多月的时间内共同学习、成长!!
我们队的初步数据分析链接参见队友之前整理的blog

0 背景简介

在企业全球化业务体系中,海运物流作为其最重要的一项支撑。其中,船运公司会和数据供应公司进行合作,对运输用的船通过GPS进行定位以监控船的位置;在运输管理的过程中,货物到达目的港的时间是非常重要的一项数据,那么需要通过船运的历史数据构建模型,对目的港到达时间进行预测,预测时间简称为ETA(estimated time of arrival),目的港到达时间预测为ARRIVAL_ETA。
本次大赛提供历史运单GPS数据、历史运单事件数据、港口座标数据,预测货物运单的到达时间,对应“历史运单事件”数据中EVENT_CODE字段值为ARRIVAL AT PORT时EVENT_CONVOLUTION_DATE的时间值。
在这里插入图片描述

1 比赛数据

在这里插入图片描述
大赛提供脱敏后的训练数据及测试数据,训练数据集包括:历史运单GPS数据、历史运单事件数据、港口座标数据,这些数据主要用于参赛队伍训练模型,制定预估策略;测试运单数据为不同运单、运输过程中的不同位置所构成,供选手测试对应的ETA时间。
货物运单在船运过程中,会产生大量的GPS运单数据,记录为“历史运单GPS数据”;货物运单在船运过程中离开起运港、到达中转港、到达目的港等关键事件,记录为“历史运单事件数据”;“港口的座标数据“为与运单船运相关的港口座标信息。
允许选手合理增加与题目相关的外部数据进行纠正,如大赛提供的港口座标数据存在偏差时可自行补充数据纠正。
在这里插入图片描述

1.1 历史运单GPS数据

历史运单GPS数据描述每个运单在船运的过程中,所在船产生的GPS位置的相关信息。
在这里插入图片描述

数据说明:
每个运单表示一次运输的运输单号,不会重复使用,一次运输过程中的多条GPS数据拥有相同的运输单号。船号为运单货物所在的船编号,会重复出现在不同次运输的GPS数据中。需要注意的是GPS数据中可能会有异常的GPS,可能且不限于如下问题:
(1) GPS座标在陆地,或者有些港口是内陆的港口。
(2) GPS漂移:两点距离过大,超过船的行驶能力。
(3) GPS在部分地区的比较稀疏(比如南半球、敏感海域)。
(4) 最后的GPS点可能和港口的距离较远(比如塞港时,或者临近目的港时已无GPS数据)。
(5) speed字段之后数据可能会有少量缺失(如GPS设备短暂异常)。
在这里插入图片描述

1.2. 历史运单事件数据

历史运单事件数据描述每个运单在船运的过程中,与港口相关的关键信息,如离开起运港、到达目的港等。
在这里插入图片描述
在这里插入图片描述

1.3 港口座标数据

港口座标数据描述每个运单在船运的过程中涉及的港口位置信息。
在这里插入图片描述
在这里插入图片描述

1.4. 测试运单数据

测试运单数据为运单运输过程中的不同位置点所构成,供选手测试对应的ETA时间。测试运单数据如下表描述。
在这里插入图片描述
在这里插入图片描述

2 选手提交结果

所有参与竞赛的选手登录到大赛平台,提交结果数据,具体提交格式要求:
在这里插入图片描述
其中,ETA为选手评估的时间值;creatDate为该表或该CSV文件创建时间, 用于区别多次提交数据。对于未提交的运单ETA,后台统一取timestamp时间计算。
在这里插入图片描述
1. 初赛
大赛初赛提供:

(1) 训练数据:1.5万量级运单对应的历史运单GPS数据、历史运单事件数据和港口座标数据,用于模型的训练
(2) 测试数据:2万量级测试数据,由不同运单的不同GPS位置所组成。
选手通过训练数据训练好的模型,对测试数据进行预测和提交结果,初赛排行榜以选手的提交结果评分为准。

2. 复赛
大赛复赛提供:

(1) 训练数据:1.8万量级条运单对应的历史运单GPS数据、历史运单事件数据和港口座标数据,用于模型的训练。
(2) 测试数据:2.5万量级条测试运单数据,由不同运单的不同GPS位置所组成。
选手通过训练数据训练好的模型,对测试数据进行预测和提交结果,复赛排行榜以选手的提交结果评分为准。

3 评估标准

选手提交结果的评估指标是MSE,即ARRIVAL AT PORT预测时间ETA与真实时间ATA的差距的平方和,计算如下:
在这里插入图片描述
其中:
(1) **hETA为同一个货物运单到达目的港口的预测所需时间。**选手提供DATE时间,评测程序转换为单位所需时间,单位:小时。
(2) **hATA为同一个货物运单到达目的港口的实际所需时间,**大赛测评程序后台保存,用于测评运算。
(3) **ETA_NUM为预测的ETA数量,测评程序后台运算,**大赛测评程序后台保存,用于测评运算。
最终使用MSE值作为参赛选手得分,MSE值越小,排名越靠前。
示例说明:
如某一货物运单路由CNSHK-MYPKG-MYTPP,已离开起运港CNSHK,SHIPMENT ONBOARD DATE为2019/09/05 16:33:17,通过经纬度等信息判断船位置在CNSHK与MYPKG之间,根据,预测目的港口MYTPP的时间,提交的ETA:”2019/09/18 22:28:46”。
在这里插入图片描述

4 平台使用及代金券

在这里插入图片描述

5 周周星大佬团队思路整理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

感谢大家的耐心阅读,有什么建议欢迎大家在评论里提出来哦~~
这篇文章会持续更新,记录自己的一点心得和思考~
也请大家多多指教!!希望能和大家一同学习进步!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章