kaggle實戰部分


探索性數據分析(Exploratory Data Analysis,簡稱EDA

庫函數涉及到的理論部分

Pandas之偏度與峯度

偏度(skewness)

偏度是統計數據分佈偏斜方向和程度的度量是統計數據分佈非對稱程度的數字特徵。偏度(Skewness)亦稱偏態、偏態係數

表徵概率分佈密度曲線相對於平均值不對稱程度的特徵數。直觀看來就是密度函數曲線尾部的相對長度。
定義上偏度是樣本的三階標準化矩:
在這裏插入圖片描述
在這裏插入圖片描述

峯度kurtosis

峯度表示分佈的尾部與正態分佈的區別。使用峯度可幫助您初步瞭解有關數據分佈的一般特徵。

基線:峯度值 0
完全服從正態分佈的數據的峯度值爲 0。正態分佈的數據爲峯度建立了基準。如果樣本的峯度值顯著偏離 0,則表明數據不服從正態分佈。
在這裏插入圖片描述

正峯度
具有正峯度值的分佈表明,相比於正態分佈,該分佈有更重的尾部。例如,服從 t 分佈的數據具有正峯度值。實線表示正態分佈,虛線表示具有正峯度值的分佈。
在這裏插入圖片描述

負峯度
具有負峯度值的分佈表明,相比於正態分佈,該分佈有更輕的尾部。例如,服從 Beta 分佈(第一個和第二個分佈形狀參數等於 2)的數據具有負峯度值。實線表示正態分佈,虛線表示具有負峯度值的分佈。

在這裏插入圖片描述

箱線圖

盒圖由五個數值點組成:最小值(min),下四分位數(Q1),中位數(median),上四分位數(Q3),最大值(max)。也可以往盒圖裏面加入平均值(mean)。如上圖。下四分位數、中位數、上四分位數組成一個“帶有隔間的盒子”。上四分位數到最大值之間建立一條延伸線,這個延伸線成爲“鬍鬚(whisker)”。

由於現實數據中總是存在各式各樣地“髒數據”,也成爲“離羣點”,於是爲了不因這些少數的離羣數據導致整體特徵的偏移,將這些離羣點單獨匯出,而盒圖中的鬍鬚的兩級修改成最小觀測值與最大觀測值。這裏有個經驗,就是最大(最小)觀測值設置爲與四分位數值間距離爲1.5個IQR(中間四分位數極差)。即IQR = Q3-Q1,即上四分位數與下四分位數之間的差,也就是盒子的長度。
最小觀測值爲min = Q1 - 1.5*IQR,如果存在離羣點小於最小觀測值,則鬍鬚下限爲最小觀測值,離羣點單獨以點匯出。如果沒有比最小觀測值小的數,則鬍鬚下限爲最小值。

最大觀測值爲max = Q3 +1.5*IQR,如果存在離羣點大於最大觀測值,則鬍鬚上限爲最大觀測值,離羣點單獨以點匯出。如果沒有比最大觀測值大的數,則鬍鬚上限爲最大值。

在這裏插入圖片描述

通過盒圖,在分析數據的時候,盒圖能夠有效地幫助我們識別數據的特徵:
直觀地識別數據集中的異常值(查看離羣點)。判斷數據集的數據離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及鬍鬚的長度)
在這裏插入圖片描述

  1. 箱體的左側(下)邊界代表第一四分位(Q1),而右側(上)邊界代表第三四分位(Q3)。至於箱體部分代表四分位距(IQR),也就是觀測值的中間50%值。
  2. 在箱體中間的線代表的是數據的中位數值。
  3. 從箱體邊緣延伸出去的直線稱爲觸鬚(whisker).觸鬚(whisker)的向外延伸表示了數據集中的最大和最小(異常點除外)。
  4. 極端值或異常點(outlier),用星號(*)來標識.如果一個值位於箱體外面(大於Q3或小於Q1),並且距離相應邊界大於1.5倍的IQR,那麼這個點就被認爲是一個異常點(outlier)。

散點矩陣圖

散點圖矩陣建立在兩個基本圖形上,直方圖和散點圖對角線上的直方圖允許我們看到單個變量的分佈,而上下三角形上的散點圖顯示了兩個變量之間的關係。
在這裏插入圖片描述

代碼部分

pandas

get_dummies的使用

如下圖所示,該函數默認將數字離散值的列排在前面,並將費離散型變量使用one-hot編碼,每個種類單獨做一個屬性,使用0-1變量表示。====》導致數據集的特徵屬性會大量增長。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章