零基礎數據挖掘學習 | Task2 EDA 探索性數據分析

零基礎數據挖掘學習是記錄自己在Datawhale舉辦的數據挖掘專題學習中的總結以及過程,該專題根據實際的應用場景:二手車交易價格預測,從理論結合實踐入手,分別將從0到1打比賽流程的流程劃分爲:賽題理解、數據分析、特徵工程、模型訓練等通用流程進行學習。

天池競賽鏈接:https://tianchi.aliyun.com/competition/entrance/231784/information

Tip:此部分爲零基礎入門數據挖掘的 Task2 數據分析 部分。

首先什麼是探索性數據分析(Exploratory Data Analysis,EDA)?
實際上,這是一系列的方法,它的目的就是讓你最大化對數據的直覺,爲了讓你對數據有感覺,你不僅需要知道數據裏有什麼,你還需要知道數據裏沒有什麼,而完成這件事情的方法只有一個,那就是結合各種統計學的圖形把數據以各種形式展現在我們面前。它可以完成這些事情:

  • 讓你最大程度得到數據的直覺
  • 發掘潛在的結構
  • 提取重要的變量
  • 刪除異常值
  • 檢驗潛在的假設
  • 建立初步的模型
  • 決定最優因子的設置

數據探索在機器學習中我們一般稱爲EDA(Exploratory Data Analysis):

是指對已有的數據(特別是調查或觀察得來的原始數據)在儘量少的先驗假定下進行探索,通過作圖、製表、方程擬合、計算特徵量等手段探索數據的結構和規律的一種數據分析方法。

數據探索有利於我們發現數據的一些特性,數據之間的關聯性,對於後續的特徵構建是很有幫助的。

  1. 對於數據的初步分析(直接查看數據,或.sum(), .mean(),.descirbe()等統計函數)可以從:樣本數量,訓練集數量,是否有時間特徵,是否是時許問題,特徵所表示的含義(非匿名特徵),特徵類型(字符類似,int,float,time),特徵的缺失情況(注意缺失的在數據中的表現形式,有些是空的有些是”NAN”符號等),特徵的均值方差情況。

  2. 分析記錄某些特徵值缺失佔比30%以上樣本的缺失處理,有助於後續的模型驗證和調節,分析特徵應該是填充(填充方式是什麼,均值填充,0填充,衆數填充等),還是捨去,還是先做樣本分類用不同的特徵模型去預測。

  3. 對於異常值做專門的分析,分析特徵異常的label是否爲異常值(或者偏離均值較遠或者事特殊符號),異常值是否應該剔除,還是用正常值填充,是記錄異常,還是機器本身異常等。

  4. 對於Label做專門的分析,分析標籤的分佈情況等。

  5. 進步分析可以通過對特徵作圖,特徵和label聯合做圖(統計圖,離散圖),直觀瞭解特徵的分佈情況,通過這一步也可以發現數據之中的一些異常值等,通過箱型圖分析一些特徵值的偏離情況,對於特徵和特徵聯合作圖,對於特徵和label聯合作圖,分析其中的一些關聯性

 

學習參考鏈接1:https://www.jianshu.com/p/9325c9f88ee6

學習參考鏈接2:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281978.0.0.68021b43qQHjp5&postId=95457

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章