數據挖掘實踐學習一數據集處理未完待續

原創

方糖冰红茶

2020-06-27 08:58

前言

8月份參加的DataWhale組織的組隊學習活動，自以爲是地報了MySQL，數據挖掘和爬蟲，結果只有MySQL完成得還可以了，數據挖掘不厚道地隨便搞了一下，矇混過關，爬蟲搞了一半最後被請出了羣聊。

雖然沒有完成，但好處保留了這些資料和高手們的聊天記錄，現在想把沒做完和做好的事情做完做好，可以照着別人的腳步，跟着做，這叫站在巨人的肩膀上。做的這些，當然都是爲了一份工作。

第一部分是數據集處理，即拿到數據集後，對數據字段的意義和類型、數據的分佈、以及數據的缺失值進行了解和分析，然後做相應的處理。

引用一位羣友的總結，即這一部分包括：1、剔除無用的特徵；2、缺失值的處理；3、異常值和離羣值的處理；4、分類數據的編碼；5、時間類特徵的處理；6、其他特徵的處理。

這一邊日誌，我主要進行數據值的處理，用python的數據可視化包展示一下數據的分佈，這裏也複習一下Matplotlib和seaborn，不然真的過去學的都忘了。至於時間類和其他特徵處理，放在一下篇，專門學習一下特徵工程。

數據集說明

這是DataWhale提供的一個金融數據集，數據集已經做了脫密處理。需要做的是預測用戶的貸款是否會逾期。數據字段"status" 是結果標籤：0表示未逾期，1表示逾期。

數據集將會三七分，三分測試集七分訓練集。隨機種子設置爲2018。

導入常用的工具包

導入數據

導入數據並查看DataFrame結構：總共有4754行數據，90個字段。

字段分析

查看每個字段的唯一值有多少個，如果只有一個唯一值，那麼這個字段特徵沒有什麼用，如果字段的唯一值跟總數據行數相等，那麼也是無關字段

從以上可以看出，'bank_card_no','source','Unnamed: 0','custid','trade_no'是無用特徵

接下來，對每個字段的意義進行探究，從常理上判斷一個特徵字段是否具有意義。

每個字段隨機選取5個數查看

然後逐個看

將字段分類

按照常理去掉一部分無效字段，比如卡號，客戶姓名。一般日期信息應該主要用於做季節性趨勢性分析，或這用戶生命週期的分析，等進步一再看。

刪除無用字段

缺失值處理

對每個字段的缺失值進行統計，再按缺失值數量大小排序：

或者通過計算缺失值的比例來看

可見，student_feature 有2998個缺失值，缺失值佔比63%，這個字段需要刪掉。

對於缺失值的處理，這裏參考一片文章：

http://blog.sina.com.cn/s/blog_1523c35670102xlcf.html

這裏使用最填充法去處理缺失值，即填充均值，衆數或者中位數。

一般來說，如果是數值型變量，若存在的變量值是正態分佈則選擇均值填充，若是偏態分佈，則選擇中位數填充；如果不是數值型變量，則選擇衆數填充。

由於均值又受到異常值和利羣值的影響，所以先看看數值型的數據分佈和離羣數據。

爲了畫圖方便，這裏將所有的數值型字段分層三部分：

異常情況：16，23，25這三個圖出現最左/最右暴增的情況，即data_int1[15,22,24] ==>> rank_trad_1_month, trans_top_time_last_1_month, consume_top_time_last_1_month。。。待以後進一步分析。

第21個圖出現分段情況，即'avg_price_last_12_month'

第二段沒有特殊情況出現。

第18個圖出現分段情況，即 'consfin_credit_limit'

對於出現分段情況的 'avg_price_last_12_month','consfin_credit_limit'，很奇怪的是通過畫大圖分析，卻沒有看到它們分段的情況。。。暫時不去探究了。

考慮以上圖形基本都呈偏態分佈，所以最後使用中位數對數值類型的缺失值進行填充。

接下的步驟：

填充數值類缺失值

對於時間日期類特徵的分析，填充時間類缺失值

填充標籤類缺失值

數據類型轉換，將標籤類型的字段轉爲數值類型，參考 https://zhuanlan.zhihu.com/p/87203369

--- 未完待續 ---

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

泛統計理論初探——模型泛化能力增強技巧

數據挖掘-機器學習模型泛化增強技巧機器學習模型泛化能力增強技巧簡介在之前的文章中，我們已經介紹了三種提高模型泛化能力的方法，即前一篇文章介紹的L1正則化、L2正則化、DropOut方法。在本文中，我們將會從數據角度、模型

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——過擬合與欠擬合探討

數據挖掘-過擬合與欠擬合的簡介過擬合與欠擬合簡介在我們數據挖掘的學習中，經常會出現過擬合和欠擬合的情況。比如使用BP神經網絡進行預測的時候，可能會造成數據的過擬合；使用簡單的一元線性迴歸的進行預測的時候，可能會造成數據的欠擬合

喷火龙与水箭龟

2020-07-08 04:17:12

2020年7月編程語言排名，C語言與Java拉大距離，黑馬R排名第八

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！ TIOBE編程社區2020年7月編程語言排行榜如期而至，你的生活工作是否也是這樣如期而至呢?看看7月編程語言排行榜又有哪些變化呢?你所心儀

雲棲號資訊小哥

2020-07-10 16:07:49

雲計算與大數據合體，能給我們帶來什麼？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！雲計算和大數據的結合可以說是相輔相成，因爲雲計算爲大數據提供了可以彈性擴展相對便宜的存儲空間和計算資源，使得中小企業也可以像大型企業一樣通過

雲棲號資訊小編

2020-07-08 18:46:59

Mysql疑難雜症收集

Mysql疑難雜症收集 By Eagoo 　　　　一、可疑問題：　　　　　　　　mysql>show processlist; 　　　　

单线程的娃

2020-07-08 12:00:56

[深度之眼]LeNet/AlexNet/VGGNet/InceptionNet/ResNet實現fashion_mnist分類

本文使用五種經典卷積神經網絡，實現fashion_mnist十分類問題，並對比準確度和運行時間LeNet5 原理AlexNet8 原理VGGNet16 原理InceptionNet10 原理ResNet18 原理用到的包： im

2020-07-08 11:53:37

最近鄰搜索神器——一文讀懂局部敏感哈希LSH原理

什麼是LSH? LSH主要用來解決高維空間中點的近似最近鄰搜索問題,即Approximate Nearest Neighbor(ANN)。在實際的應用中我們所面對的數據是海量的,並且有着很高的維度。在對數據的各種操作中,查詢操作

2020-07-08 05:33:08

[B11]數據挖掘實戰：客戶流失預警系統

*這是一個數據挖掘的小項目，將從以下幾個方面來分析：數據清洗與格式轉換探索性數據分析特徵篩選特徵工程建立多種基礎模型，嘗試多種算法模型調參/提升模型評估測試/結論彙報分析與準備數據數據簡介 State:州名

学Python的莫小白

2020-07-08 05:05:48

數據調度平臺系統二大種類及其實現方法與流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 04:22:11

泛統計理論初探——常見正則化技巧簡介

數據挖掘-正則化方法簡介常見正則化方法介紹正則化方法是數據挖掘或者神經網絡應用裏常見的一種方法，該類方法其實是一種對於過擬合進行優化的思路，即當模型在訓練集和測試集的預測準確率差距非常大的時候，比如模型在訓練集預測準確率

喷火龙与水箭龟

2020-07-08 04:17:13

泛統計理論初探——探討梯度下降學習率優化技巧

數據挖掘-梯度下降學習率優化簡介學習率優化方法簡介本文準備介紹的主要內容是在梯度下降方法中，對於學習速率這個超參數的優化思路。在之前的三篇文章裏，分別介紹了對梯度本身的優化的常見策略和技巧，但是沒有對學習速率的優化進行介

喷火龙与水箭龟

2020-07-08 04:17:13

泛統計理論初探——DBSCAN方法簡介

數據挖掘-聚類算法之DBSCAN DBSCAN算法簡介在之前的文章裏，我們探討了最常見的一種聚類算法，即Kmeans算法，在本文中，我們將簡要介紹DBSCAN算法，同時將比較DBSCAN方法相對於Kmeans的優缺點。 DBSC

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——梯度下降新方法簡介

數據挖掘-梯度下降新方法簡介梯度下降新方法簡介在之前的兩篇文章裏，我們介紹了梯度下降方法的歷史和演變，從批量梯度下降、隨機梯度下降方法到後續的新方法如動量加速法、AdaGrad、RMSprop、Adadelta方法等，本

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——均值漂移算法初探

數據挖掘-均值漂移聚類算法均值漂移聚類算法簡介本文主要是介紹均值漂移聚類算法，又稱爲Mean-Shift-Cluster，該算法屬於無監督學習的聚類方法。主要從算法的使用場景、步驟、核心思路等角度去介紹算法。之前其實也介紹過一

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——再談梯度下降方法優化

數據挖掘-再談梯度下降優化方法再談梯度下降優化方法在上一篇文章，我們簡單的介紹了梯度下降方法和一些簡單的優化方法，比如隨機梯度下降方法可以對原有的梯度下降方法進行優化和加速，在這個基礎上又有小批量梯度下降方法和動量加速梯

喷火龙与水箭龟

2020-07-08 04:17:12

24小時熱門文章

最新文章

最新評論文章