原创 lightgbm的GPU版本和CPU版本運行速度比較

原文鏈接:www.baidu.com [1]中比較了catboost的GPU速度和lightgbm之間速度 [2]中的一個例子,GPU版本運行得比CPU還慢   [1]中的lightgbm的參數

原创 train和test的列分佈差異

代碼: import pandas as pd import numpy as np import multiprocessing import warnings import matplotlib.pyplot as plt impo

原创 數據鬆弛Data Relaxation

數據鬆弛作用: train和test的特徵各自去掉頻率不一致的取值,讓train和test關於某特徵的各種取值的概率分佈全都一致。   鬆弛代碼:   import pandas as pd import numpy as np imp

原创 DataFrame縱向合併

concat_1.csv A,B,C,D a0,b0,c0,d0 a1,b1,c1,d1 a2,b2,c2,d2 a3,b3,c3,d3   concat_2.csv A,B,C,D a4,b4,c4,d4 a5,b5,c5,d5 a6,

原创 bug report for night mode plugin in Chrome

Dear Madam/Sir: Here's my problem with night mode plugin.   Environment: Chrome 76.0.3809.132-64 Night Mode Pro:0.3.2  

原创 seaborn繪圖後得到分佈參數

原文鏈接:www.baidu.com baidustudio上面的代碼如下: import seaborn as sns import pandas as pd import numpy as

原创 baidu aistudio使用小結

地址: https://aistudio.baidu.com/aistudio/projectoverview 新建項目後就是出來一個notebook 運行前申請GPU填寫一堆資料即可。   特點: 裏面的命令是dash,而不是bash

原创 kaggle數據集下載到colab上

原文鏈接:https://blog.csdn.net/herokoking/article/details/92838087 一個Google colab的實例最長可以持續12小時,窗口關閉後只

原创 數據集哪些特徵有多大的null列表

原文鏈接:https://www.kaggle.com/rajeshcv/tale-of-nulls 代碼在kaggle notebook上運行通過: import pandas as pd

原创 統計dataframe中所有列的null數量

原文鏈接:https://www.kaggle.com/suoires1/fraud-detection-eda-and-modeling 代碼如下:   train_full.info(ve

原创 awk輸出最後一列的命令

原文鏈接:www.baidu.com 輸出最後一列:   awk -F',' '{print $NF}' train_FraudRate.csv > lastcolumn.txt  

原创 sql中進行計算並重命名

原文鏈接:www.baidu.com 命令是: select isFraud,card1 ,TransactionDT%86400/3600 as Transaction_Hour from

原创 pandas的dataframe節省內存

原文鏈接:https://www.kaggle.com/gemartin/load-data-reduce-memory-usage   代碼如下: def reduce_mem_usage(

原创 Unknown column 'XXX' in 'where clause'一例排查

問題復現如下: select * from merge.fraud_card1 where merge.fraud_card1.card1=merge.fraud_card1.card1 這個查詢沒問題, 然後下面一個居然出問題了

原创 kaggle用命令提交

原文鏈接:www.baidu.com 命令如下: kaggle competitions submit -c ieee-fraud-detection -f 1_08_2_03.csv -m