僅對老師課堂上說的注意點之類的做了記錄:
1.一定要看case,以便了解模型預估咋哪裏出現了什麼問題導致AUC降低
2.所有的問題儘可能轉化爲分類問題,少去做迴歸
例如:大於0.5,標爲1,反之,標爲0.
連續數值的label轉爲離散類別來做。
3.無監督學習
K-means:文本聚類
plsa
lda
4.PCA:降維,選擇前面n個feature。
算法工程師:
工業界有數據作弊的情況(刷單,設定規則過濾掉一些數據)
5.數據分層,進行拆分,思考是否需要針對性的設計特徵
tensorflow+python
儘量復現算法
Ensemble:有效果
模型的評估:AUC,工業界看的就是一個序
sklearn中的函數
transform:把數據變換成可訓練的數據
6.用來預測的數據往前推1周,或1月。因爲人的行爲是按照週期分佈的。(用前一週或一月的數據來預測本週或本月的數據)
抽特徵超級重要。
7.除了監督學習,其餘兩個學習幾乎可以說是大坑
強化學習是一個大坑
人生中的第一個模型lr(邏輯迴歸 ),人生中第二個模型gbdt,人生中第三個模型xgbdt,xgbdt一定要用的,第四個模型DNN。
樹類模型是一定要去學的。
一,大多數paper的代碼公佈在GitHub上。
而,找論人的地方:
1.nips
2.recsys
3.aaai(較水)
4.cvpr(牛逼)
5.ijcai(較水)
feature對預測能力扮演着很重要的作用,learning rate schema and data sampling improve the model slightly.
抖音:播放完成度來做的
數據不平衡的解決方式:uniform sampling
大部分廣告都是LR,DNN來做
推薦系統重點是召回和排序(有部分invending)
推薦的問題:
冷啓動問題?去熱問題?
計算機視覺:CNN一定得會
專注於算法:能不能理解,能不能get到點
所有的模型自己訓一遍。
每一行都有過剩的,也有招不到人的,重點是誰牛逼。
數據結構基礎的排序要熟。
推薦系統使用深度學習的內容比較多,機器學習只是基礎。
懂不懂纔是關鍵。
人必須有自己的主動性,儘自己所能
在這個信息社會,無知是一種選擇,如果你什麼都聽信權威專家並照做不誤,等於把所有的人身權利都交給了他
別再畏首畏尾,自己承擔起自己的責任