kaggle實戰部分

原創

2020-06-22 07:01

kaggle實戰部分

庫函數涉及到的理論部分

Pandas之偏度與峯度

代碼部分

pandas

get_dummies的使用

探索性數據分析（Exploratory Data Analysis，簡稱EDA）

庫函數涉及到的理論部分

Pandas之偏度與峯度

偏度（skewness）

偏度是統計數據分佈偏斜方向和程度的度量，是統計數據分佈非對稱程度的數字特徵。偏度(Skewness)亦稱偏態、偏態係數。

表徵概率分佈密度曲線相對於平均值不對稱程度的特徵數。直觀看來就是密度函數曲線尾部的相對長度。
定義上偏度是樣本的三階標準化矩：

峯度kurtosis

峯度表示分佈的尾部與正態分佈的區別。使用峯度可幫助您初步瞭解有關數據分佈的一般特徵。

基線：峯度值 0
完全服從正態分佈的數據的峯度值爲 0。正態分佈的數據爲峯度建立了基準。如果樣本的峯度值顯著偏離 0，則表明數據不服從正態分佈。

正峯度
具有正峯度值的分佈表明，相比於正態分佈，該分佈有更重的尾部。例如，服從 t 分佈的數據具有正峯度值。實線表示正態分佈，虛線表示具有正峯度值的分佈。

負峯度
具有負峯度值的分佈表明，相比於正態分佈，該分佈有更輕的尾部。例如，服從 Beta 分佈（第一個和第二個分佈形狀參數等於 2）的數據具有負峯度值。實線表示正態分佈，虛線表示具有負峯度值的分佈。

箱線圖

盒圖由五個數值點組成：最小值(min)，下四分位數(Q1)，中位數(median)，上四分位數(Q3)，最大值(max)。也可以往盒圖裏面加入平均值(mean)。如上圖。下四分位數、中位數、上四分位數組成一個“帶有隔間的盒子”。上四分位數到最大值之間建立一條延伸線，這個延伸線成爲“鬍鬚(whisker)”。

由於現實數據中總是存在各式各樣地“髒數據”，也成爲“離羣點”，於是爲了不因這些少數的離羣數據導致整體特徵的偏移，將這些離羣點單獨匯出，而盒圖中的鬍鬚的兩級修改成最小觀測值與最大觀測值。這裏有個經驗，就是最大(最小)觀測值設置爲與四分位數值間距離爲1.5個IQR(中間四分位數極差)。即IQR = Q3-Q1，即上四分位數與下四分位數之間的差，也就是盒子的長度。
最小觀測值爲min = Q1 - 1.5*IQR，如果存在離羣點小於最小觀測值，則鬍鬚下限爲最小觀測值，離羣點單獨以點匯出。如果沒有比最小觀測值小的數，則鬍鬚下限爲最小值。

最大觀測值爲max = Q3 +1.5*IQR，如果存在離羣點大於最大觀測值，則鬍鬚上限爲最大觀測值，離羣點單獨以點匯出。如果沒有比最大觀測值大的數，則鬍鬚上限爲最大值。

通過盒圖，在分析數據的時候，盒圖能夠有效地幫助我們識別數據的特徵：
直觀地識別數據集中的異常值(查看離羣點)。判斷數據集的數據離散程度和偏向(觀察盒子的長度，上下隔間的形狀，以及鬍鬚的長度)。

箱體的左側(下)邊界代表第一四分位(Q1),而右側(上)邊界代表第三四分位(Q3)。至於箱體部分代表四分位距(IQR),也就是觀測值的中間50%值。
在箱體中間的線代表的是數據的中位數值。
從箱體邊緣延伸出去的直線稱爲觸鬚(whisker).觸鬚(whisker)的向外延伸表示了數據集中的最大和最小(異常點除外)。
極端值或異常點(outlier),用星號(*)來標識.如果一個值位於箱體外面(大於Q3或小於Q1),並且距離相應邊界大於1.5倍的IQR,那麼這個點就被認爲是一個異常點(outlier)。

散點矩陣圖

散點圖矩陣建立在兩個基本圖形上，直方圖和散點圖。對角線上的直方圖允許我們看到單個變量的分佈，而上下三角形上的散點圖顯示了兩個變量之間的關係。

代碼部分

pandas

get_dummies的使用

如下圖所示，該函數默認將數字離散值的列排在前面，並將費離散型變量使用one-hot編碼，每個種類單獨做一個屬性，使用0-1變量表示。====》導致數據集的特徵屬性會大量增長。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

kaggle實戰部分

kaggle實戰部分

庫函數涉及到的理論部分

Pandas之偏度與峯度

偏度（skewness）

峯度kurtosis

箱線圖

散點矩陣圖

代碼部分

pandas

get_dummies的使用

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

c++寫算法 5月篇

搬家博客地址

滾球控制系統

軟件設計師知識點

OSTU算法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結