原创 Metabase、FineBI安裝與簡單評測

Metabase 一、安裝 win10系統 https://www.cnblogs.com/cuiyubo/p/11448815.html 二、效果 三、感受 優點:安裝簡單快捷,上手簡單,出圖快,基本不用啥教程,圖符合自己審

原创 PR曲線代碼

from sklearn.metrics import roc_auc_score def get_pr(oof,target): pos = target[target==1] threshold = np.s

原创 Pseudo Labeling標籤平滑

https://www.kaggle.com/cdeotte/pseudo-labeling-qda-0-969

原创 特徵工程技巧

https://www.kaggle.com/c/ieee-fraud-detection/discussion/108575

原创 特徵編碼-function

# FREQUENCY ENCODE TOGETHER def encode_FE(df1, df2, cols): for col in cols: df = pd.concat([df1[col],df

原创 reduce_mem_usage減小內存

def reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']

原创 學習曲線檢查模型欠擬合&過擬合

from sklearn.model_selection import learning_curve from sklearn.model_selection import ShuffleSplit import numpy as n

原创 dataframe一列數據從object轉爲float

data['note_n'] = pd.to_numeric(data['note_n'])

原创 (轉)XGBoost參數調優完全指南

原文(英文)地址:https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/ 原文(翻

原创 特徵工程前的數據可視化技巧

以泰坦尼克乘客生還數據爲例。 讀取數據後: data.head() data.describe() data.info() 觀察數據大概情況。 plt.figsize=(16,8) sns.countplot('Survived',

原创 sklearn入門

sklearn使用流程: 準備數據集→選擇類型→訓練模型→測試模型 from sklearn import datasets iris=datasets.load_iris() digits=datasets.load_digits

原创 sklearn中的train_test_split(數據分割)、preprocessing(歸一化)、cross_val_score(交叉驗證)

1、train_test_split(數據分割): from sklearn.model_selection import train_test_split X=np.random.randint(0,100,(10,4)) y=n