20190712-0717 螞蟻金服夏令營心得

20190712-0717 螞蟻金服夏令營心得

1. 開營

開營前,參加了班委,報名了支付寶分會場的主持。開營前的一週裏,和HR、女主持籌備分享會,和班委們商量組織分工。
開營當天上午的大場,第一次在螞蟻近距離見到大佬們,聽他們的分享。
在這裏插入圖片描述

體會:

  • 創業精神,憂患意識:來螞蟻有2個月了,最大的感受是:螞蟻內部非常有活力,這裏像是個大平臺,每個團隊都保持着創業精神,時刻爲生存和發展拼搏着,毫無懈怠。今天見到魯肅和王維,瞭解了他們遇到的坎坷,他們對追求的執著。包括下午場的管仲,這些10年以上工齡的大佬們,有着強烈的憂患意識,讓我想起馬老師曾說,‘每天晚上都擔心阿里巴巴被新公司趕超’。這讓我相信,阿里是一個值得留下奮鬥的地方。

  • 工作與生活的平衡? 996ICU最近很敏感,會上有同學間接提問了工作和生活的平衡問題。這也是我HR面的一個問題。17年18年還在和導師、師兄弟創業的時候,也是持續的高強度工作。18年有段時間身心俱疲,身體情感同時受挫。過年的時候在家裏放空地躺了很多天。突然覺得,人吃飽了最大的敵人就是空虛。既然起始狀態是空虛,爲什麼不做一些事,給自己的時間賦予一點意義呢。人最怕的不是996,不是加班不給錢。而是沒有目標,沒有方向。17年創業起航的時候,10-12-7 我也很快樂。
    王維大佬過年不回家,閉關趕項目的時候,不會想着這是加班,他說的求之不得鍛鍊機會。管仲大佬來回出差不回家,被老婆約談,此後每月堅持帶老婆看電影,做到老婆電話一定接。所以工作和生活的平衡在於自己的取捨,在於明白自己要什麼。也許剛畢業想拼命學習成長,也許趁青春想浪到崖下海邊。但有一點,公司的利益、團隊的利益和個人的利益要一致,在工作中要能夠成就自己。

  • 抽離的能力 有同學問,工作中有時看問題的層次不同,產生定位模糊和認知失調怎麼辦。霂霂說,要會抽離。在你非常投入一件事,一個領域,一種觀點時,要有抽離自己,跳出來看看的力量。自己可能做不到,那就找這樣一個幫你抽離的朋友。

  • 看山還是山 2個月來我感受到,螞蟻一直在給大家灌輸“個人是個p”的觀念,但是另一方面又很關懷員工。大會上有同學提問,很難在最終的方案裏實現自己原本的思路和設計,大佬們有這個苦惱嗎。大佬們的回答很一致,甚至和我主管私下教導的一毛一樣。核心思想就一個,專注於把事做好,實現整體最優。進入一個團隊,先認爲自己是nothing,然後慢慢承擔責任,成爲團隊的something。做事的人,眼裏是目標,是合作。到最後,事做成了,會發現,自己也成了,回到看山還是山。螞蟻的人,像極了我創業的師兄們啊。

  • 終極問題: “來螞蟻想要的是什麼?”

  • 另一個師兄被問的:“你的沉澱是什麼?”

2. 素拓

每一個素拓遊戲都是團隊合作遊戲。十幾個本來陌生的同學,要在短時間內找到自己在團隊中的定位,各盡所能,完成每一項挑戰。最後一個任務是,在2小時內用pvc管搭建讓籃球滾動的過山車軌道,籃球滾過要設計機關用鐵絲扎爆氣球。一開始我對這個遊戲的效果是不包期待的。但是一邊做一邊佩服大家層出不窮的創意。最終的效果是很震撼的,當籃球從2米高的軌道滾過45米的軌道,一路觸發機關刺破氣球,真是讓人感嘆,團隊的力量真是超乎想象。
在這裏插入圖片描述

3. Hackathon 支付風險預測

比賽是迷你版本的ATEC,三天時間,每天可以提交4次結果。這也是本菜雞第一次參加比賽。

歷程

在這裏插入圖片描述

方案

在這裏插入圖片描述

收穫

  • 第一次體驗hackathon這類比賽的節奏,跟着博士大佬,學到了這類比賽的一般步驟:數據分析–特徵選擇–特徵工程–模型調優–模型融合。
  • 數據分析,特徵選擇。 在比賽一開始,在不知道該剔除什麼特徵時,可以簡單的把缺失率高的剔除,先儘可能保留特徵,去訓練模型拿到第一次測試結果。這樣後續篩選特徵可以有對比,不浪費提交機會。 學習到,通過數據缺失情況、圖表看分佈、相關性分析、顯著性分析挑選特徵。有些特徵同時缺失,有些特徵缺失率大,都要篩選。分析訓練特徵和測試特徵的分佈,剔除分佈相差懸殊的。分析特徵和label的相關性,可以剔除不相關特徵。分析特徵之間的相關性,剔除相關性高的。PCA用於降維度
  • 缺失值處理。 比賽的開始,可以儘快用簡單補充方式拿到模型結果。可以統一按最小值填補,或者離散數據按一個新標籤填補,連續數據用衆數、中位數、均值填充等。實踐證明,填補方式對結果影響不大,可以不區分的用最小值填補。對於lightGBM和XGBoost, 使用自帶的缺失值處理方法更好。
  • 訓練數據。 訓練數據樣本不均衡的問題,可以通過降採樣或者過採樣處理。比賽的數據是兩個月的用戶行爲特徵,特徵在時間維度上分佈差異大,比較訓練集和測試集,決定取第一個月的數據做訓練數據。數據正負樣本比大概是1:20。保留所有正樣本,負樣本隨機1:3採樣。也可以按日期均勻採樣,可以先聚類再採樣。
  • 模型訓練。 訓練單個模型,本地結果儘量不要過擬合,用K摺疊交叉驗證,避免在訓練集上ROC很高。調參的時候可以嘗試sklearn的自動調參包。最後模型融合非常有用。RF/Adaboost/lgbm/xgboost 本地單獨測試時得分只能到0.4左右,融合後能到0.5~0.6。融合方式,有直接取平均,有衆數投票。
  • 反思 整個過程,各位隊友都盡心盡力,我和博士是本組僅有的2個相關算法同學。博士大佬每一步都進行的有條不紊,而且對負責的模型優化迭代了很多版本。 我缺浪費了很多時間才進入狀態,而且因爲手忙腳亂,在notebook裏沒有版本管理,出了2版融合到0.58的結果後,丟失了使用的特徵組合,本地精度跌了0.1。提交裏基本都是靠博士提供的模型版本拉分。最後一次提交,沒有提升分數,我們從第9掉到了第16。雖然大家都相互鼓勵,但是我內心還是很挫敗很自責。做爲算法的同學,如果早一天準備比賽進入狀態,就能不拖博士的後腿了,第二天就應該能開始模型融合。另一方面,直到最後,博士還在查資料/嘗試新的方法,想要優化模型,隊長和隊友也在抓緊最後的2個小時,分析數據分析特徵。大家想要超越自己的氣氛還觸動了我,讓我找到高中一起參加競賽的感覺。好好學習,不就是爲了和這樣可愛的人一起共事嘛!

結語

在來螞蟻之前,我捨不得上海,未曾拿起,無所畏懼。來到螞蟻,認識了許多朋友,產品的小哥哥小姐姐們,hackathon的隊友們,整天講段子的師兄們,每一個人都是我留下的理由。短短2個月,拿起了許多,捨不得放下。轉正還是要看我和公司是否相互契合,不論能否留下,都會是適合自己的道路吧。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章