Anaconda
Anaconda中安裝XGBoost、Lightgbm、CatBoost
pip下安裝lightgbm、catboost在Anaconda環境中的Jupyter裏並不能使用,pip的lightgbm、catboost默認安裝在本地python環境中,而anaconda的python路徑與本地路徑不同,不能使用本地環境中的包
$pip install xgboost
$conda install -c conda-forge lightgbm
$conda install -c conda-forge catboost
Pandas
填充Dataframe中的缺失值(nan)
nan爲非數,且nan!=nan,在數據中爲缺失值,當對數據進行預處理時,需對缺失值進行處理,一種方式爲刪掉含有缺失值的行或列,另一種則是對nan值進行填充。
進行填充的方式如下:
columns_with_nan=['column_include_nan_1','column_include_nan_2',
'column_include_nan_3']
for i in columns_with_nan:
X_all[i].fillna(-1.0,inplace=True)
對所給非數字的數據進行硬編碼
X_all=pd.DataFrame(YourData)
used_columns=['column1','column2','column3']
for i in used_columns:
c_Map = {elem:index+1 for index,elem in enumerate(set(X_all[i]))}
X_all[i] = X_all[i].map(c_Map)
更改列的數據類型
example_df=pd.DataFrame(YourData)
example_df.astype(數據類型)