原创 sklearn pipeline 實現多個模型統一調參

實現多模型統一調參 解決問題:在復現GBDT+LR的經典結構的時候,發現需要對兩個模型一起進行調參,網上找不到相關代碼,研究之後實現LGB + LR的統一調參 需寫3個自定義管道流的類來完成, 兩個模型用於預測, 一個實現將GBD

原创 pandas使用(不定期把所見的比較有效的處理方式加過來)

作者:SeanCheney 鏈接:https://www.jianshu.com/p/161364dd0acf 沒有全部詳細整過來,大概弄了一下 sort_values 列可以通過賦值的方式進行修改。例如,我們可以給那個空

原创 正確理解查準率與查全率、auc值

在周志華老師的西瓜書裏面,將這兩個詞分別翻譯爲查準率(precision)和查全率(recall),這樣可以顧名思義,瞭解到這兩個詞的意思,查準率就是對於所有機器判定爲正的裏面,有多大的比例是真的正樣本,寫成公式就是 P=TP/(

原创 lstm模型與情感分析實例

LSTM(Long Short-Term Memory) LSTM出現背景:由於RNN存在梯度消失的問題,很難處理長序列的數據。爲了解決RNN存在問題,後續人們對RNN做了改進,得到了RNN的特例LSTM,它可以避免常規RNN的梯

原创 Linux離線安裝pyspark與嘗試使用pyspark連接數據庫

針對於已經存在的java版本1.7, spark版本2.2.0,離線安裝pyspark 所需的安裝包都需自行另外尋找,本篇不提供下載地址 第一步(需保證pyspark相關依賴有): 安裝anconda離線版(保證得帶上pandas

原创 半自動構造新特徵

半自動構造新特徵 主要原理是通過groupby(C1).agg(func)[N1]的方式來創造新特徵,實現特徵交叉 還需配合特徵篩選使用有更好效果 需要傳入gby_cols 分組列,stati_cols 統計列,func_list

原创 xgboost保存模型遇到問題

採用此種方式保存的模型,當我重新讀取時,模型特徵排序會更改,很坑 xgb.save("./output/model/xgb.model") 採用joblib方式保存模型才行 import joblib #save model j

原创 經onehot編碼後,實現維度轉換後xgb特徵維度權重值跟蹤

0.19 sklearn的onehot編碼有bug, 完成onehot編碼轉換,在過程中將轉換後特徵維度記錄下來,便於配合xgb特徵選擇獲取不同特徵權重 from sklearn.base import BaseEstimator

原创 roc曲線 vs pr曲線(AUC vs f1)

什麼是AUC 摘錄:https://tracholar.github.io/machine-learning/2018/01/26/auc.html 如果auc=0.70,代表給定一個正樣本和一個負樣本,在70%的情況下,模型對正

原创 機器學習模型爲什麼要將特徵離散化

原文鏈接:https://www.cnblogs.com/-Sai-/p/6707327.html 嚴林的回答: https://www.zhihu.com/question/31989

原创 python 正則

import regex as re re.sub("(?<![\{\((][^{}()()]*),(?![^{}()()]*[\}\))])", "_", ",{2, 1},") 匹配除中英文圓括號和中括號中的逗號

原创 pyspark常用技巧

# spark讀取pandas dataframe,形成spark dataframe sparkDF = con_pyspark.hc.createDataFrame(df) sparkDF.write.mode("overwr

原创 pyspark往elasticsearch 寫入數據 零停機日更新

from elasticsearch import Elasticsearch from elasticsearch.helpers import reindex from datetime import datetime imp

原创 linux常用操作

配置用戶的基礎環境,即每次登陸這個用戶都會先執行這文件裏面的內容 vim .bashrc

原创 lstm模型

LSTM(Long Short-Term Memory)簡介 由於RNN存在梯度消失的問題,很難處理長序列的數據。 爲了解決RNN存在問題,後續人們對RNN做了改進,得到了RNN的特例LSTM,它可以避免常規RNN的梯度消失,因此在工