本文是該系列的第二部分,我從變量中發現了有趣的見解,併發布了相關視頻。 本系列第一部分的主要工作是數據收集和數據清理。本文,我們做一些探索性數據分析,這是該項目的一部分, 全部代碼 都可以在這裏找到。
完成數據清理
我意識到,在之前的文章中,我忘記清理這三個列(變量):“ gender_pref
”、“ reason
”和“ job
”。所以,我很快對它們進行了清理。
- 對於“
gender_pref
”,我將它們重新標記爲“male
”、“female
”、“both
”和“it's about music
”,以簡化它們。 - 對於“
reason
”,我把它們分爲“unique music style
”、“unique choreography
”、“attractive idols
”、“many reasons
”和“other reason
”。 - 對於“
job
”,我按照“student
”、“full-time woker
”和“unemplppyed
”來分類。
分析連續變量
首先,檢查連續變量的描述,包括:“ yr_listened
”、“ daily_music_hr
”、“ daily_MV_hr
”、“ yr_merch_spent
”、“ age
”、“ num_gr_like
”。
原文鏈接:【https://www.infoq.cn/article/BB8FuiGMBjwz6QHQDfyV】。未經作者許可,禁止轉載。