原创 理解xgboost

大牛博客推薦: wepon 原始論文 : XGBoost: A Scalable Tree Boosting System xgboost的slide 中文原理說明 xgboost的原理篇看了很多,總結大牛博客和自己筆記基

原创 xgboost的原生接口與sklearn接口輸出feature_importance

1、sklearn的原生接口和sklearn接口調用feature_importance有差別: bst = xgb.train(param, d1_train, num_boost_round=100, evals=watch_

原创 Python連續變量分箱--woe值單調分箱

最近上傳了一個變量分箱的方法到pypi,這個包主要有以下說明: 缺失值單獨一箱,不論缺失的數量多少; 生成的分箱woe值是單調的,後續有時間會迭代U型分箱的版本; 會有分箱最小樣本數佔比,類似決策樹的最小葉節點佔比; 分箱成功的

原创 Python : satasmodels & sklearn LogisticRegression

python 邏輯迴歸 satasmodels 和 sklearn LogisticRegression結果係數總是不一致 除了LogisticRegression要設置fit_intercept = False以外,會發現skl

原创 logistic regression--sas逐步迴歸推導驗證

邏輯迴歸定義事件發生的概率爲: 其中: 因此對於輸入x分類結果爲類別1和類別0的概率分別爲: (1)式綜合起來可以寫成: 取似然函數爲: 對數似然函數爲: 實際求解中通常取 -2log L 求解變量係數就是使用梯度下降

原创 淺談線性變換、PCA和SVD

矩陣變換: 先來看下幾何意義,這些圖來源於知乎上的高贊回覆 方陣和向量相乘,從幾何意義上來講,就是對向量作 旋轉、伸縮 變換。 比如對角矩陣M作用在任何一個向量上 其幾何意義爲在水平x方向上方向上拉伸3倍,y方向保持不變的線性變

原创 python code tips(持續更新中。。。)

pandas篇 1、 通常做數據分析時候會用pandas將數據轉化成dataframe數據框的格式, 如 但是如果遇到只有一行數據的情況 就會報錯:ValueError: If using all scalar values,

原创 集成模型篩選特徵shap

訓練完整的集成模型(xgboost、LightGBM、CatBoost)可以參考這篇博客的流程 首先數值型不變,因爲不需要做標準化處理,然後文本型轉爲woe編碼; 計算IV,將大於0.5(舉例)的變量抽出去做加分規則,不然模型很

原创 原生xgboost中如何輸出feature_importance

https://www.cnblogs.com/RainLa/p/11929515.html

原创 GBDT源碼解讀及實現(一)

GradientBoostingClassifier和GradientBoostingRegressor共同的父類是BaseGradientBoosting。BaseGradientBoosting的最重要的函數是fit()函數。

原创 sas構建評分卡模型過程詳解(一):特徵處理及變量分箱

  在進行特徵處理前首先要走的是數據的導入和清洗,這裏不再贅述。特徵工程包括:缺失值、變量同質性、變量分箱。 下面來逐一說明: 缺失值:包括變量收集時缺失、變量加工時缺失。建模過程中如請求第三方數據時無法查得,前端人員填入錯

原创 GBDT源碼解讀及實現(二)

以下是用迴歸樹模擬實現GBDT 這是gbdt的第一棵樹 對比兩張圖可以看出分割節點一樣,但是葉子節點的value不同 下面是更新GBDT的樹的value過程 如上圖函數說明,葉子節點的value,也就是第t棵樹所學根本就不

原创 sas構建評分卡模型過程詳解(二):變量篩選及邏輯迴歸

上一篇已經將所有變量都轉化爲woe值的形式,這裏再另外補充一個小技巧—dummy變量的使用。      1.有時候我們的數據來源可能不是很真實,如客戶自己填寫的婚姻狀況,假設婚姻狀況不會要求客戶提供證明,但此時我們想加入這個變量,

原创 如何在PyPi發佈自己的包

主要是參考下面幾篇博客 https://blog.csdn.net/mouday/article/details/80736312 https://blog.csdn.net/mouday/article/details/7961

原创 轉載 -- 攜程金融大數據風控算法實踐

「數據中臺」 模型亦是基於完善的技術平臺的,攜程金融數據中臺可以抽象爲三個層次,底層是基礎數據層,中層業務抽象模型層,以及最上層的算法模型層。 Fig . 2 攜程金融大數據中臺的抽象結構 中臺這個概念早期是由美軍的作戰體系演化而來