分析數據-設置驗證集-檢查數據泄露
分析步驟:
-
瞭解領域知識
-
搜索關鍵詞,搜索數據的含義
-
-
檢查數據是否存在異常值,超出範圍的值
-
理解如何生成特徵
分析匿名數據(Anonymized data)
Anonymized data:
-
猜想每列的物理含義
-
猜測每列的數據類型:數值類型、類別變量、時間類型
-
試圖尋找特徵列之間的關係
-
試圖尋找特徵羣
數據可視化
-
單個特徵:
-
直方圖:plt.hist(X)
-
plot:plt.plot()
-
統計學:df.describe()
-
-
類別變量直方圖分佈:sns.countplot(train_df['device.operatingSystem'])
-
特徵之間的關係:
-
相關性分析:df.corr()
-
點圖:plt.scatter()
-
plt.scatter(x1,x2)
pd.scatter_matrix(df)
df.corr(),plt.matshow(..)
df.mean().sort_values().plot(style='.')
-
Explore individual features
-
Histogram
-
Plot (index vs value)
-
Statistics
-
-
Explore feature relations
-
Pairs
-
Scatter plot, scatter matrix
-
Corrplot
-
-
Groups
-
Corrplot + clustering
-
Plot (index vs feature statistics)
-
數據清洗和Check
-
常值特徵:constant feature
train.nunique(axis=1)==1
- 策略:remove it
-
重複特徵列:duplicated feature
-
重複數據行:對於數據中存在多個相同數據行時,最好刪除多餘的行
-
檢查數據集是否是shuffle: