零基礎數據挖掘學習｜ Task2 EDA 探索性數據分析

原創

2020-03-31 14:13

零基礎數據挖掘學習是記錄自己在Datawhale舉辦的數據挖掘專題學習中的總結以及過程，該專題根據實際的應用場景：二手車交易價格預測，從理論結合實踐入手，分別將從0到1打比賽流程的流程劃分爲：賽題理解、數據分析、特徵工程、模型訓練等通用流程進行學習。

天池競賽鏈接：https://tianchi.aliyun.com/competition/entrance/231784/information

Tip:此部分爲零基礎入門數據挖掘的 Task2 數據分析部分。

首先什麼是探索性數據分析(Exploratory Data Analysis,EDA)？
實際上，這是一系列的方法，它的目的就是讓你最大化對數據的直覺，爲了讓你對數據有感覺，你不僅需要知道數據裏有什麼，你還需要知道數據裏沒有什麼，而完成這件事情的方法只有一個，那就是結合各種統計學的圖形把數據以各種形式展現在我們面前。它可以完成這些事情：

讓你最大程度得到數據的直覺
發掘潛在的結構
提取重要的變量
刪除異常值
檢驗潛在的假設
建立初步的模型
決定最優因子的設置

數據探索在機器學習中我們一般稱爲EDA（Exploratory Data Analysis）：

是指對已有的數據（特別是調查或觀察得來的原始數據）在儘量少的先驗假定下進行探索，通過作圖、製表、方程擬合、計算特徵量等手段探索數據的結構和規律的一種數據分析方法。

數據探索有利於我們發現數據的一些特性，數據之間的關聯性，對於後續的特徵構建是很有幫助的。

對於數據的初步分析（直接查看數據，或.sum(), .mean()，.descirbe()等統計函數）可以從：樣本數量，訓練集數量，是否有時間特徵，是否是時許問題，特徵所表示的含義（非匿名特徵），特徵類型（字符類似，int，float，time），特徵的缺失情況（注意缺失的在數據中的表現形式，有些是空的有些是”NAN”符號等），特徵的均值方差情況。
分析記錄某些特徵值缺失佔比30%以上樣本的缺失處理，有助於後續的模型驗證和調節，分析特徵應該是填充（填充方式是什麼，均值填充，0填充，衆數填充等），還是捨去，還是先做樣本分類用不同的特徵模型去預測。
對於異常值做專門的分析，分析特徵異常的label是否爲異常值（或者偏離均值較遠或者事特殊符號）,異常值是否應該剔除，還是用正常值填充，是記錄異常，還是機器本身異常等。
對於Label做專門的分析，分析標籤的分佈情況等。
進步分析可以通過對特徵作圖，特徵和label聯合做圖（統計圖，離散圖），直觀瞭解特徵的分佈情況，通過這一步也可以發現數據之中的一些異常值等，通過箱型圖分析一些特徵值的偏離情況，對於特徵和特徵聯合作圖，對於特徵和label聯合作圖，分析其中的一些關聯性

學習參考鏈接1：https://www.jianshu.com/p/9325c9f88ee6

學習參考鏈接2：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281978.0.0.68021b43qQHjp5&postId=95457

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

零基礎數據挖掘學習｜ Task2 EDA 探索性數據分析

ziw2pdf

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

數學必備知識

論文閱讀 | CenterNet：Keypoint Triplets for Object Detection

《統計學習方法》第二章感知機 Perceptron 總結及其代碼實現

斯坦福cs224n assignment1

Mac OS 運行opencv-python 顯示圖片手動關閉後，程序卡死問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

零基礎數據挖掘學習 ｜ Task2 EDA 探索性數據分析

零基礎數據挖掘學習｜ Task2 EDA 探索性數據分析