用機器學習分析流行音樂(二):探索性數據分析

本文是該系列的第二部分,我從變量中發現了有趣的見解,併發布了相關視頻。 本系列第一部分的主要工作是數據收集和數據清理。本文,我們做一些探索性數據分析,這是該項目的一部分, 全部代碼 都可以在這裏找到。

完成數據清理

我意識到,在之前的文章中,我忘記清理這三個列(變量):“ gender_pref ”、“ reason ”和“ job ”。所以,我很快對它們進行了清理。

  • 對於“ gender_pref ”,我將它們重新標記爲“ male ”、“ female ”、“ both ”和“ it's about music ”,以簡化它們。
  • 對於“ reason ”,我把它們分爲“ unique music style ”、“ unique choreography ”、“ attractive idols ”、“ many reasons ”和“ other reason ”。
  • 對於“ job ”,我按照“ student ”、“ full-time woker ”和“ unemplppyed ”來分類。

分析連續變量

首先,檢查連續變量的描述,包括:“ yr_listened ”、“ daily_music_hr ”、“ daily_MV_hr ”、“ yr_merch_spent ”、“ age ”、“ num_gr_like ”。

原文鏈接:【https://www.infoq.cn/article/BB8FuiGMBjwz6QHQDfyV】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章