20190712-0717 蚂蚁金服夏令营心得

20190712-0717 蚂蚁金服夏令营心得

1. 开营

开营前,参加了班委,报名了支付宝分会场的主持。开营前的一周里,和HR、女主持筹备分享会,和班委们商量组织分工。
开营当天上午的大场,第一次在蚂蚁近距离见到大佬们,听他们的分享。
在这里插入图片描述

体会:

  • 创业精神,忧患意识:来蚂蚁有2个月了,最大的感受是:蚂蚁内部非常有活力,这里像是个大平台,每个团队都保持着创业精神,时刻为生存和发展拼搏着,毫无懈怠。今天见到鲁肃和王维,了解了他们遇到的坎坷,他们对追求的执著。包括下午场的管仲,这些10年以上工龄的大佬们,有着强烈的忧患意识,让我想起马老师曾说,‘每天晚上都担心阿里巴巴被新公司赶超’。这让我相信,阿里是一个值得留下奋斗的地方。

  • 工作与生活的平衡? 996ICU最近很敏感,会上有同学间接提问了工作和生活的平衡问题。这也是我HR面的一个问题。17年18年还在和导师、师兄弟创业的时候,也是持续的高强度工作。18年有段时间身心俱疲,身体情感同时受挫。过年的时候在家里放空地躺了很多天。突然觉得,人吃饱了最大的敌人就是空虚。既然起始状态是空虚,为什么不做一些事,给自己的时间赋予一点意义呢。人最怕的不是996,不是加班不给钱。而是没有目标,没有方向。17年创业起航的时候,10-12-7 我也很快乐。
    王维大佬过年不回家,闭关赶项目的时候,不会想着这是加班,他说的求之不得锻炼机会。管仲大佬来回出差不回家,被老婆约谈,此后每月坚持带老婆看电影,做到老婆电话一定接。所以工作和生活的平衡在于自己的取舍,在于明白自己要什么。也许刚毕业想拼命学习成长,也许趁青春想浪到崖下海边。但有一点,公司的利益、团队的利益和个人的利益要一致,在工作中要能够成就自己。

  • 抽离的能力 有同学问,工作中有时看问题的层次不同,产生定位模糊和认知失调怎么办。霂霂说,要会抽离。在你非常投入一件事,一个领域,一种观点时,要有抽离自己,跳出来看看的力量。自己可能做不到,那就找这样一个帮你抽离的朋友。

  • 看山还是山 2个月来我感受到,蚂蚁一直在给大家灌输“个人是个p”的观念,但是另一方面又很关怀员工。大会上有同学提问,很难在最终的方案里实现自己原本的思路和设计,大佬们有这个苦恼吗。大佬们的回答很一致,甚至和我主管私下教导的一毛一样。核心思想就一个,专注于把事做好,实现整体最优。进入一个团队,先认为自己是nothing,然后慢慢承担责任,成为团队的something。做事的人,眼里是目标,是合作。到最后,事做成了,会发现,自己也成了,回到看山还是山。蚂蚁的人,像极了我创业的师兄们啊。

  • 终极问题: “来蚂蚁想要的是什么?”

  • 另一个师兄被问的:“你的沉淀是什么?”

2. 素拓

每一个素拓游戏都是团队合作游戏。十几个本来陌生的同学,要在短时间内找到自己在团队中的定位,各尽所能,完成每一项挑战。最后一个任务是,在2小时内用pvc管搭建让篮球滚动的过山车轨道,篮球滚过要设计机关用铁丝扎爆气球。一开始我对这个游戏的效果是不包期待的。但是一边做一边佩服大家层出不穷的创意。最终的效果是很震撼的,当篮球从2米高的轨道滚过45米的轨道,一路触发机关刺破气球,真是让人感叹,团队的力量真是超乎想象。
在这里插入图片描述

3. Hackathon 支付风险预测

比赛是迷你版本的ATEC,三天时间,每天可以提交4次结果。这也是本菜鸡第一次参加比赛。

历程

在这里插入图片描述

方案

在这里插入图片描述

收获

  • 第一次体验hackathon这类比赛的节奏,跟着博士大佬,学到了这类比赛的一般步骤:数据分析–特征选择–特征工程–模型调优–模型融合。
  • 数据分析,特征选择。 在比赛一开始,在不知道该剔除什么特征时,可以简单的把缺失率高的剔除,先尽可能保留特征,去训练模型拿到第一次测试结果。这样后续筛选特征可以有对比,不浪费提交机会。 学习到,通过数据缺失情况、图表看分布、相关性分析、显著性分析挑选特征。有些特征同时缺失,有些特征缺失率大,都要筛选。分析训练特征和测试特征的分布,剔除分布相差悬殊的。分析特征和label的相关性,可以剔除不相关特征。分析特征之间的相关性,剔除相关性高的。PCA用于降维度
  • 缺失值处理。 比赛的开始,可以尽快用简单补充方式拿到模型结果。可以统一按最小值填补,或者离散数据按一个新标签填补,连续数据用众数、中位数、均值填充等。实践证明,填补方式对结果影响不大,可以不区分的用最小值填补。对于lightGBM和XGBoost, 使用自带的缺失值处理方法更好。
  • 训练数据。 训练数据样本不均衡的问题,可以通过降采样或者过采样处理。比赛的数据是两个月的用户行为特征,特征在时间维度上分布差异大,比较训练集和测试集,决定取第一个月的数据做训练数据。数据正负样本比大概是1:20。保留所有正样本,负样本随机1:3采样。也可以按日期均匀采样,可以先聚类再采样。
  • 模型训练。 训练单个模型,本地结果尽量不要过拟合,用K折叠交叉验证,避免在训练集上ROC很高。调参的时候可以尝试sklearn的自动调参包。最后模型融合非常有用。RF/Adaboost/lgbm/xgboost 本地单独测试时得分只能到0.4左右,融合后能到0.5~0.6。融合方式,有直接取平均,有众数投票。
  • 反思 整个过程,各位队友都尽心尽力,我和博士是本组仅有的2个相关算法同学。博士大佬每一步都进行的有条不紊,而且对负责的模型优化迭代了很多版本。 我缺浪费了很多时间才进入状态,而且因为手忙脚乱,在notebook里没有版本管理,出了2版融合到0.58的结果后,丢失了使用的特征组合,本地精度跌了0.1。提交里基本都是靠博士提供的模型版本拉分。最后一次提交,没有提升分数,我们从第9掉到了第16。虽然大家都相互鼓励,但是我内心还是很挫败很自责。做为算法的同学,如果早一天准备比赛进入状态,就能不拖博士的后腿了,第二天就应该能开始模型融合。另一方面,直到最后,博士还在查资料/尝试新的方法,想要优化模型,队长和队友也在抓紧最后的2个小时,分析数据分析特征。大家想要超越自己的气氛还触动了我,让我找到高中一起参加竞赛的感觉。好好学习,不就是为了和这样可爱的人一起共事嘛!

结语

在来蚂蚁之前,我舍不得上海,未曾拿起,无所畏惧。来到蚂蚁,认识了许多朋友,产品的小哥哥小姐姐们,hackathon的队友们,整天讲段子的师兄们,每一个人都是我留下的理由。短短2个月,拿起了许多,舍不得放下。转正还是要看我和公司是否相互契合,不论能否留下,都会是适合自己的道路吧。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章