哈嘍大家好,我是螞蟻,不知道在哪裏看到一句話“統計學其實是最有魅力的學科,通過它你開始用上帝的視角看世界,萬般皆規律”。今天在用“保險費數據集”畫小提琴圖的時候,看到很有趣的數據表現,分享給大家。
保險費數據集:
這是一份美國的保險公司的小數據集,裏面包含了公司給每個投保人出具的保險費,其中人的信息包括性別、年齡、孩子個數、是否抽菸等字段。
小提琴圖(violin plot):
結合了箱線圖和核密度的一個統計圖表,兩句簡單說明:中間的是箱線圖黑色橫條展示了數據的中位數、25%分位數、75%分位數;兩側是核密度圖曲線代表數據密度,如果曲線越胖說明該位置的人越多。
開始看我的代碼演示吧:
1、導入包
2、讀取數據集
根據英文字段名,我們看到有性別、年齡、孩子個數,是否抽菸,最後一列是公司支出的保險費
3、繪製全部保險費的分佈圖
這個圖很符合直覺,大部分人的保險費不會那麼高
4、性別男女與保險費的關係
這是第一個有趣的分佈,高額保險費裏面,男性比女性要多;
5、年齡與保險費的關係分佈
這一點也不出意外,年齡的增大,帶來支持保險費的增加
6、是否抽菸與保險費的關係
雖然符合直覺,但是這張圖讓我好笑了半天,這差別也太大了。
幸好我不抽菸,也勸勸各位抽菸的朋友,能少抽就少抽點吧。
以上使用的兩個技術簡介:
1、pandas:Python的數據分析庫,擅長二維表格數據的處理
2、seaborn:基於matplotlib的繪圖庫,尤其擅長統計圖表;
本文的代碼和數據集,在我的“Python數據可視化”代碼倉庫下載:
https://github.com/peiss/ant-learn-visualization
如果本文對你有幫助的話,幫忙點個“在看”吧^_^