20190712-0717 螞蟻金服夏令營心得

1. 開營

開營前，參加了班委，報名了支付寶分會場的主持。開營前的一週裏，和HR、女主持籌備分享會，和班委們商量組織分工。
開營當天上午的大場，第一次在螞蟻近距離見到大佬們，聽他們的分享。

體會：

創業精神，憂患意識：來螞蟻有2個月了，最大的感受是：螞蟻內部非常有活力，這裏像是個大平臺，每個團隊都保持着創業精神，時刻爲生存和發展拼搏着，毫無懈怠。今天見到魯肅和王維，瞭解了他們遇到的坎坷，他們對追求的執著。包括下午場的管仲，這些10年以上工齡的大佬們，有着強烈的憂患意識，讓我想起馬老師曾說，‘每天晚上都擔心阿里巴巴被新公司趕超’。這讓我相信，阿里是一個值得留下奮鬥的地方。
工作與生活的平衡？ 996ICU最近很敏感，會上有同學間接提問了工作和生活的平衡問題。這也是我HR面的一個問題。17年18年還在和導師、師兄弟創業的時候，也是持續的高強度工作。18年有段時間身心俱疲，身體情感同時受挫。過年的時候在家裏放空地躺了很多天。突然覺得，人吃飽了最大的敵人就是空虛。既然起始狀態是空虛，爲什麼不做一些事，給自己的時間賦予一點意義呢。人最怕的不是996，不是加班不給錢。而是沒有目標，沒有方向。17年創業起航的時候，10-12-7 我也很快樂。
王維大佬過年不回家，閉關趕項目的時候，不會想着這是加班，他說的求之不得鍛鍊機會。管仲大佬來回出差不回家，被老婆約談，此後每月堅持帶老婆看電影，做到老婆電話一定接。所以工作和生活的平衡在於自己的取捨，在於明白自己要什麼。也許剛畢業想拼命學習成長，也許趁青春想浪到崖下海邊。但有一點，公司的利益、團隊的利益和個人的利益要一致，在工作中要能夠成就自己。
抽離的能力 有同學問，工作中有時看問題的層次不同，產生定位模糊和認知失調怎麼辦。霂霂說，要會抽離。在你非常投入一件事，一個領域，一種觀點時，要有抽離自己，跳出來看看的力量。自己可能做不到，那就找這樣一個幫你抽離的朋友。
看山還是山 2個月來我感受到，螞蟻一直在給大家灌輸“個人是個p”的觀念，但是另一方面又很關懷員工。大會上有同學提問，很難在最終的方案裏實現自己原本的思路和設計，大佬們有這個苦惱嗎。大佬們的回答很一致，甚至和我主管私下教導的一毛一樣。核心思想就一個，專注於把事做好，實現整體最優。進入一個團隊，先認爲自己是nothing，然後慢慢承擔責任，成爲團隊的something。做事的人，眼裏是目標，是合作。到最後，事做成了，會發現，自己也成了，回到看山還是山。螞蟻的人，像極了我創業的師兄們啊。
終極問題： “來螞蟻想要的是什麼？”
另一個師兄被問的：“你的沉澱是什麼？”

2. 素拓

每一個素拓遊戲都是團隊合作遊戲。十幾個本來陌生的同學，要在短時間內找到自己在團隊中的定位，各盡所能，完成每一項挑戰。最後一個任務是，在2小時內用pvc管搭建讓籃球滾動的過山車軌道，籃球滾過要設計機關用鐵絲扎爆氣球。一開始我對這個遊戲的效果是不包期待的。但是一邊做一邊佩服大家層出不窮的創意。最終的效果是很震撼的，當籃球從2米高的軌道滾過45米的軌道，一路觸發機關刺破氣球，真是讓人感嘆，團隊的力量真是超乎想象。

3. Hackathon 支付風險預測

比賽是迷你版本的ATEC，三天時間，每天可以提交4次結果。這也是本菜雞第一次參加比賽。

歷程

方案

收穫

第一次體驗hackathon這類比賽的節奏，跟着博士大佬，學到了這類比賽的一般步驟：數據分析–特徵選擇–特徵工程–模型調優–模型融合。
數據分析，特徵選擇。 在比賽一開始，在不知道該剔除什麼特徵時，可以簡單的把缺失率高的剔除，先儘可能保留特徵，去訓練模型拿到第一次測試結果。這樣後續篩選特徵可以有對比，不浪費提交機會。學習到，通過數據缺失情況、圖表看分佈、相關性分析、顯著性分析挑選特徵。有些特徵同時缺失，有些特徵缺失率大，都要篩選。分析訓練特徵和測試特徵的分佈，剔除分佈相差懸殊的。分析特徵和label的相關性，可以剔除不相關特徵。分析特徵之間的相關性，剔除相關性高的。PCA用於降維度
缺失值處理。 比賽的開始，可以儘快用簡單補充方式拿到模型結果。可以統一按最小值填補，或者離散數據按一個新標籤填補，連續數據用衆數、中位數、均值填充等。實踐證明，填補方式對結果影響不大，可以不區分的用最小值填補。對於lightGBM和XGBoost, 使用自帶的缺失值處理方法更好。
訓練數據。 訓練數據樣本不均衡的問題，可以通過降採樣或者過採樣處理。比賽的數據是兩個月的用戶行爲特徵，特徵在時間維度上分佈差異大，比較訓練集和測試集，決定取第一個月的數據做訓練數據。數據正負樣本比大概是1：20。保留所有正樣本，負樣本隨機1：3採樣。也可以按日期均勻採樣，可以先聚類再採樣。
模型訓練。 訓練單個模型，本地結果儘量不要過擬合，用K摺疊交叉驗證，避免在訓練集上ROC很高。調參的時候可以嘗試sklearn的自動調參包。最後模型融合非常有用。RF/Adaboost/lgbm/xgboost 本地單獨測試時得分只能到0.4左右，融合後能到0.5~0.6。融合方式，有直接取平均，有衆數投票。
反思整個過程，各位隊友都盡心盡力，我和博士是本組僅有的2個相關算法同學。博士大佬每一步都進行的有條不紊，而且對負責的模型優化迭代了很多版本。我缺浪費了很多時間才進入狀態，而且因爲手忙腳亂，在notebook裏沒有版本管理，出了2版融合到0.58的結果後，丟失了使用的特徵組合，本地精度跌了0.1。提交裏基本都是靠博士提供的模型版本拉分。最後一次提交，沒有提升分數，我們從第9掉到了第16。雖然大家都相互鼓勵，但是我內心還是很挫敗很自責。做爲算法的同學，如果早一天準備比賽進入狀態，就能不拖博士的後腿了，第二天就應該能開始模型融合。另一方面，直到最後，博士還在查資料/嘗試新的方法，想要優化模型，隊長和隊友也在抓緊最後的2個小時，分析數據分析特徵。大家想要超越自己的氣氛還觸動了我，讓我找到高中一起參加競賽的感覺。好好學習，不就是爲了和這樣可愛的人一起共事嘛！

結語

在來螞蟻之前，我捨不得上海，未曾拿起，無所畏懼。來到螞蟻，認識了許多朋友，產品的小哥哥小姐姐們，hackathon的隊友們，整天講段子的師兄們，每一個人都是我留下的理由。短短2個月，拿起了許多，捨不得放下。轉正還是要看我和公司是否相互契合，不論能否留下，都會是適合自己的道路吧。

20190712-0717 螞蟻金服夏令營心得

20190712-0717 螞蟻金服夏令營心得

1. 開營

體會：

2. 素拓

3. Hackathon 支付風險預測

歷程

方案

收穫

結語

SQL優化-20231016

CmakeList 組織編譯項目的基本用法

MobileNet 訓練檢測網實驗總結

讀取修改caffemodel文件裏的網絡模型參數

Typro & Markdown常見的基本用法

pvanet訓練並檢測自己的數據_流程_報錯_總結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結