DataScience中遇到的一些技巧

Anaconda

Anaconda中安裝XGBoost、Lightgbm、CatBoost

pip下安裝lightgbm、catboost在Anaconda環境中的Jupyter裏並不能使用,pip的lightgbm、catboost默認安裝在本地python環境中,而anaconda的python路徑與本地路徑不同,不能使用本地環境中的包

$pip install xgboost
$conda install -c conda-forge lightgbm
$conda install -c conda-forge catboost

Pandas

填充Dataframe中的缺失值(nan)

nan爲非數,且nan!=nan,在數據中爲缺失值,當對數據進行預處理時,需對缺失值進行處理,一種方式爲刪掉含有缺失值的行或列,另一種則是對nan值進行填充。
進行填充的方式如下:

columns_with_nan=['column_include_nan_1','column_include_nan_2',
				  'column_include_nan_3']
for i in columns_with_nan:
    X_all[i].fillna(-1.0,inplace=True)

對所給非數字的數據進行硬編碼

X_all=pd.DataFrame(YourData)
used_columns=['column1','column2','column3']
for i in used_columns:
    c_Map = {elem:index+1 for index,elem in enumerate(set(X_all[i]))}
    X_all[i] = X_all[i].map(c_Map)
    

更改列的數據類型

example_df=pd.DataFrame(YourData)
example_df.astype(數據類型)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章