如何處理偏態數據?

這是筆試/面試題系列的第2篇文章

在瞭解何爲偏態數據前,要先從正態數據說起。

正態分佈

正態分佈是自然界中廣泛存在的,我們都知道它是兩頭低,中間高,整個形態呈現對稱鐘形的一個分佈,之所以叫正態分佈,是因爲在大量連續數據測量的情況下,我們比較希望看到這種狀態,一個標準的正態分佈是u(均值)=0,σ(標準差)=1。

從下圖可以看出,橫座標代表隨機變量X的一個取值,在均值(u=0)附近概率密度最大,越偏離均值,概率密度減小,不在(u-3σ,u+3σ)範圍內的數據就屬於統計學意義上的異常值了。

 

偏態分佈

但是現實生活中總是會存在不是正態分佈的情況,非正態分佈,那就是偏態分佈了,有兩種,左偏(負偏態)右偏(正偏態),可以用偏度來描述,偏度>0,則頻數分佈的高峯向左偏移,呈右(正)偏態分佈;偏度<0,則頻數分佈的高峯向右偏移,呈左(負)偏態分佈;|偏度|>1,呈高度偏態,0.5<|偏度|<1,呈中等偏態。

 

偏態分佈的數據如何處理

對於偏態分佈的數據,我們需要做一些處理使其變換爲正態分佈,常用的變換方式有

  1. 對數變換:適用於相乘關係的數據、高度偏態的數據
  2. 平方根變換:適用於泊松分佈(方差與均數近似相等)的數據、輕度偏態的數據
  3. 反正弦變換:適用於百分比的數據、中度偏態的數據
  4. 倒數變換1/x:適用於兩端波動較大的數據

記得上上小節泰坦尼克數據分析中的fare字段嗎,從偏度可以看出是一個很明顯的右偏分佈的數據

 


繪製直方圖觀察也是如此,這時就可以使用對數變換。

 


雙擊縱座標,在彈出的【設置座標軸格式】中選擇對數刻度即可,比之前的右偏好多了。

 

總結

1 偏態是針對正態而言的
2 描述偏態的有偏度係數這個指標
3 偏態數據通常轉換爲正態分佈的數據,用的較多的轉換方式有對數和平方根


猜你喜歡:
泰坦尼克號數據分析

深入淺出數據分析

數據分析實戰:母嬰商品分析

《吊打分析師》實戰—我要租個好房

簡單的Excel數據分析案例

爲什麼要學統計學:赤裸裸的統計學

成爲數據分析師的第三年,我寫了10W字

@ 作者:可樂
@ 公衆號/知乎專欄/頭條/簡書:可樂的數據分析之路
@ 個人微信:data_cola

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章