本文是本教程的第三部分,在本文中,我將構建不同的預測模型,並比較結果。 你可以先閱讀本教程的第一部分和第二部分,也可以在文末找到本文完整代碼的鏈接。 現在,讓我們來構建模型!
對數據幀進行子集化,並將分類變量轉換爲虛擬變量
爲了構建模型,我去掉了“ fav_grp
”一列,因爲我們在教程第二部分探索性數據分析中看到的那樣,有太多的團體,而 BTS 是占主導地位的團體。
df_model = df[['popl_by_co_yn', 'reason', 'yr_listened',
'gender_pref','daily_music_hr', 'watch_MV_yn', 'daily_MV_hr',
'obsessed_yn','news_medium', 'pursuit', 'time_cons_yn', 'life_chg',
'pos_eff','yr_merch_spent', 'money_src', 'concert_yn', 'crazy_ev', 'age','country',
'job', 'gender', 'num_gr_like', 'bts_vs_others']]
然後,我得到虛擬數據,將分類變量轉換爲迴歸模型的虛擬/指標變量。
原文鏈接:【https://www.infoq.cn/article/RpO2oAjua52z4LMycCJZ】。未經作者許可,禁止轉載。