本文是本教程的第三部分,在本文中,我将构建不同的预测模型,并比较结果。 你可以先阅读本教程的第一部分和第二部分,也可以在文末找到本文完整代码的链接。 现在,让我们来构建模型!
对数据帧进行子集化,并将分类变量转换为虚拟变量
为了构建模型,我去掉了“ fav_grp
”一列,因为我们在教程第二部分探索性数据分析中看到的那样,有太多的团体,而 BTS 是占主导地位的团体。
df_model = df[['popl_by_co_yn', 'reason', 'yr_listened',
'gender_pref','daily_music_hr', 'watch_MV_yn', 'daily_MV_hr',
'obsessed_yn','news_medium', 'pursuit', 'time_cons_yn', 'life_chg',
'pos_eff','yr_merch_spent', 'money_src', 'concert_yn', 'crazy_ev', 'age','country',
'job', 'gender', 'num_gr_like', 'bts_vs_others']]
然后,我得到虚拟数据,将分类变量转换为回归模型的虚拟/指标变量。
原文链接:【https://www.infoq.cn/article/RpO2oAjua52z4LMycCJZ】。未经作者许可,禁止转载。