原创 sklearn pipeline 實現多個模型統一調參
實現多模型統一調參 解決問題:在復現GBDT+LR的經典結構的時候,發現需要對兩個模型一起進行調參,網上找不到相關代碼,研究之後實現LGB + LR的統一調參 需寫3個自定義管道流的類來完成, 兩個模型用於預測, 一個實現將GBD
原创 pandas使用(不定期把所見的比較有效的處理方式加過來)
作者:SeanCheney 鏈接:https://www.jianshu.com/p/161364dd0acf 沒有全部詳細整過來,大概弄了一下 sort_values 列可以通過賦值的方式進行修改。例如,我們可以給那個空
原创 正確理解查準率與查全率、auc值
在周志華老師的西瓜書裏面,將這兩個詞分別翻譯爲查準率(precision)和查全率(recall),這樣可以顧名思義,瞭解到這兩個詞的意思,查準率就是對於所有機器判定爲正的裏面,有多大的比例是真的正樣本,寫成公式就是 P=TP/(
原创 lstm模型與情感分析實例
LSTM(Long Short-Term Memory) LSTM出現背景:由於RNN存在梯度消失的問題,很難處理長序列的數據。爲了解決RNN存在問題,後續人們對RNN做了改進,得到了RNN的特例LSTM,它可以避免常規RNN的梯
原创 Linux離線安裝pyspark與嘗試使用pyspark連接數據庫
針對於已經存在的java版本1.7, spark版本2.2.0,離線安裝pyspark 所需的安裝包都需自行另外尋找,本篇不提供下載地址 第一步(需保證pyspark相關依賴有): 安裝anconda離線版(保證得帶上pandas
原创 半自動構造新特徵
半自動構造新特徵 主要原理是通過groupby(C1).agg(func)[N1]的方式來創造新特徵,實現特徵交叉 還需配合特徵篩選使用有更好效果 需要傳入gby_cols 分組列,stati_cols 統計列,func_list
原创 xgboost保存模型遇到問題
採用此種方式保存的模型,當我重新讀取時,模型特徵排序會更改,很坑 xgb.save("./output/model/xgb.model") 採用joblib方式保存模型才行 import joblib #save model j
原创 經onehot編碼後,實現維度轉換後xgb特徵維度權重值跟蹤
0.19 sklearn的onehot編碼有bug, 完成onehot編碼轉換,在過程中將轉換後特徵維度記錄下來,便於配合xgb特徵選擇獲取不同特徵權重 from sklearn.base import BaseEstimator
原创 roc曲線 vs pr曲線(AUC vs f1)
什麼是AUC 摘錄:https://tracholar.github.io/machine-learning/2018/01/26/auc.html 如果auc=0.70,代表給定一個正樣本和一個負樣本,在70%的情況下,模型對正
原创 機器學習模型爲什麼要將特徵離散化
原文鏈接:https://www.cnblogs.com/-Sai-/p/6707327.html 嚴林的回答: https://www.zhihu.com/question/31989
原创 python 正則
import regex as re re.sub("(?<![\{\((][^{}()()]*),(?![^{}()()]*[\}\))])", "_", ",{2, 1},") 匹配除中英文圓括號和中括號中的逗號
原创 pyspark常用技巧
# spark讀取pandas dataframe,形成spark dataframe sparkDF = con_pyspark.hc.createDataFrame(df) sparkDF.write.mode("overwr
原创 pyspark往elasticsearch 寫入數據 零停機日更新
from elasticsearch import Elasticsearch from elasticsearch.helpers import reindex from datetime import datetime imp
原创 linux常用操作
配置用戶的基礎環境,即每次登陸這個用戶都會先執行這文件裏面的內容 vim .bashrc
原创 lstm模型
LSTM(Long Short-Term Memory)簡介 由於RNN存在梯度消失的問題,很難處理長序列的數據。 爲了解決RNN存在問題,後續人們對RNN做了改進,得到了RNN的特例LSTM,它可以避免常規RNN的梯度消失,因此在工