6月24 七月在線直播課筆記（流水賬式，非技術，沒歸類）

原創

2019-06-25 11:22

僅對老師課堂上說的注意點之類的做了記錄：
1.一定要看case，以便了解模型預估咋哪裏出現了什麼問題導致AUC降低
2.所有的問題儘可能轉化爲分類問題，少去做迴歸
例如：大於0.5，標爲1，反之，標爲0.
連續數值的label轉爲離散類別來做。

3.無監督學習
K-means：文本聚類
plsa
lda

4.PCA：降維，選擇前面n個feature。
算法工程師：
工業界有數據作弊的情況（刷單，設定規則過濾掉一些數據）

5.數據分層，進行拆分，思考是否需要針對性的設計特徵
tensorflow+python
儘量復現算法
Ensemble:有效果
模型的評估：AUC，工業界看的就是一個序
sklearn中的函數
transform：把數據變換成可訓練的數據

6.用來預測的數據往前推1周，或1月。因爲人的行爲是按照週期分佈的。（用前一週或一月的數據來預測本週或本月的數據）
抽特徵超級重要。

7.除了監督學習，其餘兩個學習幾乎可以說是大坑
強化學習是一個大坑

人生中的第一個模型lr（邏輯迴歸），人生中第二個模型gbdt，人生中第三個模型xgbdt，xgbdt一定要用的，第四個模型DNN。
樹類模型是一定要去學的。

一，大多數paper的代碼公佈在GitHub上。
而，找論人的地方：
1.nips
2.recsys
3.aaai（較水）
4.cvpr(牛逼)
5.ijcai(較水)

feature對預測能力扮演着很重要的作用，learning rate schema and data sampling improve the model slightly.
抖音：播放完成度來做的
數據不平衡的解決方式：uniform sampling
大部分廣告都是LR，DNN來做

推薦系統重點是召回和排序（有部分invending）
推薦的問題：
冷啓動問題？去熱問題？
計算機視覺：CNN一定得會

專注於算法：能不能理解，能不能get到點
所有的模型自己訓一遍。

每一行都有過剩的，也有招不到人的，重點是誰牛逼。

數據結構基礎的排序要熟。
推薦系統使用深度學習的內容比較多，機器學習只是基礎。
懂不懂纔是關鍵。
人必須有自己的主動性，儘自己所能
在這個信息社會，無知是一種選擇，如果你什麼都聽信權威專家並照做不誤，等於把所有的人身權利都交給了他
別再畏首畏尾，自己承擔起自己的責任

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.