我真的开始爱上统计学,小提琴图探索保险费数据集

哈喽大家好,我是蚂蚁,不知道在哪里看到一句话“统计学其实是最有魅力的学科,通过它你开始用上帝的视角看世界,万般皆规律”。今天在用“保险费数据集”画小提琴图的时候,看到很有趣的数据表现,分享给大家。

保险费数据集:

这是一份美国的保险公司的小数据集,里面包含了公司给每个投保人出具的保险费,其中人的信息包括性别、年龄、孩子个数、是否抽烟等字段。

小提琴图(violin plot):

结合了箱线图和核密度的一个统计图表,两句简单说明:中间的是箱线图黑色横条展示了数据的中位数、25%分位数、75%分位数;两侧是核密度图曲线代表数据密度,如果曲线越胖说明该位置的人越多。

开始看我的代码演示吧:

1、导入包

2、读取数据集

根据英文字段名,我们看到有性别、年龄、孩子个数,是否抽烟,最后一列是公司支出的保险费

3、绘制全部保险费的分布图

这个图很符合直觉,大部分人的保险费不会那么高

4、性别男女与保险费的关系

这是第一个有趣的分布,高额保险费里面,男性比女性要多;

5、年龄与保险费的关系分布

这一点也不出意外,年龄的增大,带来支持保险费的增加

6、是否抽烟与保险费的关系

虽然符合直觉,但是这张图让我好笑了半天,这差别也太大了。

幸好我不抽烟,也劝劝各位抽烟的朋友,能少抽就少抽点吧。

以上使用的两个技术简介:

1、pandas:Python的数据分析库,擅长二维表格数据的处理

2、seaborn:基于matplotlib的绘图库,尤其擅长统计图表;

本文的代码和数据集,在我的“Python数据可视化”代码仓库下载:

https://github.com/peiss/ant-learn-visualization

如果本文对你有帮助的话,帮忙点个“在看”吧^_^

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章