零基礎數據挖掘學習是記錄自己在Datawhale舉辦的數據挖掘專題學習中的總結以及過程,該專題根據實際的應用場景:二手車交易價格預測,從理論結合實踐入手,分別將從0到1打比賽流程的流程劃分爲:賽題理解、數據分析、特徵工程、模型訓練等通用流程進行學習。
天池競賽鏈接:https://tianchi.aliyun.com/competition/entrance/231784/information
Tip:此部分爲零基礎入門數據挖掘的 Task2 數據分析 部分。
首先什麼是探索性數據分析(Exploratory Data Analysis,EDA)?
實際上,這是一系列的方法,它的目的就是讓你最大化對數據的直覺,爲了讓你對數據有感覺,你不僅需要知道數據裏有什麼,你還需要知道數據裏沒有什麼,而完成這件事情的方法只有一個,那就是結合各種統計學的圖形把數據以各種形式展現在我們面前。它可以完成這些事情:
- 讓你最大程度得到數據的直覺
- 發掘潛在的結構
- 提取重要的變量
- 刪除異常值
- 檢驗潛在的假設
- 建立初步的模型
- 決定最優因子的設置
數據探索在機器學習中我們一般稱爲EDA(Exploratory Data Analysis):
是指對已有的數據(特別是調查或觀察得來的原始數據)在儘量少的先驗假定下進行探索,通過作圖、製表、方程擬合、計算特徵量等手段探索數據的結構和規律的一種數據分析方法。
數據探索有利於我們發現數據的一些特性,數據之間的關聯性,對於後續的特徵構建是很有幫助的。
-
對於數據的初步分析(直接查看數據,或.sum(), .mean(),.descirbe()等統計函數)可以從:樣本數量,訓練集數量,是否有時間特徵,是否是時許問題,特徵所表示的含義(非匿名特徵),特徵類型(字符類似,int,float,time),特徵的缺失情況(注意缺失的在數據中的表現形式,有些是空的有些是”NAN”符號等),特徵的均值方差情況。
-
分析記錄某些特徵值缺失佔比30%以上樣本的缺失處理,有助於後續的模型驗證和調節,分析特徵應該是填充(填充方式是什麼,均值填充,0填充,衆數填充等),還是捨去,還是先做樣本分類用不同的特徵模型去預測。
-
對於異常值做專門的分析,分析特徵異常的label是否爲異常值(或者偏離均值較遠或者事特殊符號),異常值是否應該剔除,還是用正常值填充,是記錄異常,還是機器本身異常等。
-
對於Label做專門的分析,分析標籤的分佈情況等。
-
進步分析可以通過對特徵作圖,特徵和label聯合做圖(統計圖,離散圖),直觀瞭解特徵的分佈情況,通過這一步也可以發現數據之中的一些異常值等,通過箱型圖分析一些特徵值的偏離情況,對於特徵和特徵聯合作圖,對於特徵和label聯合作圖,分析其中的一些關聯性
學習參考鏈接1:https://www.jianshu.com/p/9325c9f88ee6
學習參考鏈接2:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281978.0.0.68021b43qQHjp5&postId=95457