原创 Metabase、FineBI安裝與簡單評測
Metabase 一、安裝 win10系統 https://www.cnblogs.com/cuiyubo/p/11448815.html 二、效果 三、感受 優點:安裝簡單快捷,上手簡單,出圖快,基本不用啥教程,圖符合自己審
原创 PR曲線代碼
from sklearn.metrics import roc_auc_score def get_pr(oof,target): pos = target[target==1] threshold = np.s
原创 Pseudo Labeling標籤平滑
https://www.kaggle.com/cdeotte/pseudo-labeling-qda-0-969
原创 特徵工程技巧
https://www.kaggle.com/c/ieee-fraud-detection/discussion/108575
原创 特徵編碼-function
# FREQUENCY ENCODE TOGETHER def encode_FE(df1, df2, cols): for col in cols: df = pd.concat([df1[col],df
原创 reduce_mem_usage減小內存
def reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
原创 學習曲線檢查模型欠擬合&過擬合
from sklearn.model_selection import learning_curve from sklearn.model_selection import ShuffleSplit import numpy as n
原创 dataframe一列數據從object轉爲float
data['note_n'] = pd.to_numeric(data['note_n'])
原创 (轉)XGBoost參數調優完全指南
原文(英文)地址:https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/ 原文(翻
原创 特徵工程前的數據可視化技巧
以泰坦尼克乘客生還數據爲例。 讀取數據後: data.head() data.describe() data.info() 觀察數據大概情況。 plt.figsize=(16,8) sns.countplot('Survived',
原创 sklearn入門
sklearn使用流程: 準備數據集→選擇類型→訓練模型→測試模型 from sklearn import datasets iris=datasets.load_iris() digits=datasets.load_digits
原创 sklearn中的train_test_split(數據分割)、preprocessing(歸一化)、cross_val_score(交叉驗證)
1、train_test_split(數據分割): from sklearn.model_selection import train_test_split X=np.random.randint(0,100,(10,4)) y=n