我真的開始愛上統計學,小提琴圖探索保險費數據集

哈嘍大家好,我是螞蟻,不知道在哪裏看到一句話“統計學其實是最有魅力的學科,通過它你開始用上帝的視角看世界,萬般皆規律”。今天在用“保險費數據集”畫小提琴圖的時候,看到很有趣的數據表現,分享給大家。

保險費數據集:

這是一份美國的保險公司的小數據集,裏面包含了公司給每個投保人出具的保險費,其中人的信息包括性別、年齡、孩子個數、是否抽菸等字段。

小提琴圖(violin plot):

結合了箱線圖和核密度的一個統計圖表,兩句簡單說明:中間的是箱線圖黑色橫條展示了數據的中位數、25%分位數、75%分位數;兩側是核密度圖曲線代表數據密度,如果曲線越胖說明該位置的人越多。

開始看我的代碼演示吧:

1、導入包

2、讀取數據集

根據英文字段名,我們看到有性別、年齡、孩子個數,是否抽菸,最後一列是公司支出的保險費

3、繪製全部保險費的分佈圖

這個圖很符合直覺,大部分人的保險費不會那麼高

4、性別男女與保險費的關係

這是第一個有趣的分佈,高額保險費裏面,男性比女性要多;

5、年齡與保險費的關係分佈

這一點也不出意外,年齡的增大,帶來支持保險費的增加

6、是否抽菸與保險費的關係

雖然符合直覺,但是這張圖讓我好笑了半天,這差別也太大了。

幸好我不抽菸,也勸勸各位抽菸的朋友,能少抽就少抽點吧。

以上使用的兩個技術簡介:

1、pandas:Python的數據分析庫,擅長二維表格數據的處理

2、seaborn:基於matplotlib的繪圖庫,尤其擅長統計圖表;

本文的代碼和數據集,在我的“Python數據可視化”代碼倉庫下載:

https://github.com/peiss/ant-learn-visualization

如果本文對你有幫助的話,幫忙點個“在看”吧^_^

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章