6月24 七月在線直播課筆記(流水賬式,非技術,沒歸類)

僅對老師課堂上說的注意點之類的做了記錄:
1.一定要看case,以便了解模型預估咋哪裏出現了什麼問題導致AUC降低
2.所有的問題儘可能轉化爲分類問題,少去做迴歸
例如:大於0.5,標爲1,反之,標爲0.
連續數值的label轉爲離散類別來做。

3.無監督學習
K-means:文本聚類
plsa
lda

4.PCA:降維,選擇前面n個feature。
算法工程師:
工業界有數據作弊的情況(刷單,設定規則過濾掉一些數據)

5.數據分層,進行拆分,思考是否需要針對性的設計特徵
tensorflow+python
儘量復現算法
Ensemble:有效果
模型的評估:AUC,工業界看的就是一個序
sklearn中的函數
transform:把數據變換成可訓練的數據

6.用來預測的數據往前推1周,或1月。因爲人的行爲是按照週期分佈的。(用前一週或一月的數據來預測本週或本月的數據)
抽特徵超級重要。

7.除了監督學習,其餘兩個學習幾乎可以說是大坑
強化學習是一個大坑

人生中的第一個模型lr(邏輯迴歸 ),人生中第二個模型gbdt,人生中第三個模型xgbdt,xgbdt一定要用的,第四個模型DNN。
樹類模型是一定要去學的。

一,大多數paper的代碼公佈在GitHub上。
而,找論人的地方:
1.nips
2.recsys
3.aaai(較水)
4.cvpr(牛逼)
5.ijcai(較水)

feature對預測能力扮演着很重要的作用,learning rate schema and data sampling improve the model slightly.
抖音:播放完成度來做的
數據不平衡的解決方式:uniform sampling
大部分廣告都是LR,DNN來做

推薦系統重點是召回和排序(有部分invending)
推薦的問題:
冷啓動問題?去熱問題?
計算機視覺:CNN一定得會

專注於算法:能不能理解,能不能get到點
所有的模型自己訓一遍。

每一行都有過剩的,也有招不到人的,重點是誰牛逼。

數據結構基礎的排序要熟。
推薦系統使用深度學習的內容比較多,機器學習只是基礎。
懂不懂纔是關鍵。
人必須有自己的主動性,儘自己所能
在這個信息社會,無知是一種選擇,如果你什麼都聽信權威專家並照做不誤,等於把所有的人身權利都交給了他
別再畏首畏尾,自己承擔起自己的責任

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章