數據變換
簡單變換
1、數據變換的目的是將數據轉化爲更方便分析的數據
2、簡單變換通常使用函數變換的方式進行,常見的函數變換包括:開方,平方,對數等
數據規範化
1、離差標準化--消除量綱(單位)影響以及變異大小因素的影響(最小最大標準化)
x1 = (x-min) / (max-min) # 將大數據轉爲小數據
2、標準差標準化--消除單位影響以及變量自身變異影響。
x1 = (x-平均數) / 標準差 # 一半數據大於0,一半數據小於0
3、小數定標規範化--消除單位影響(除以10的倍數)
x1 = x/10**(k)
k = log10(x的絕對值的最大值)
離散化
1、等寬離散化,將屬性的值分爲相同寬度的區間
pd.cut() # 第一個參數是數據 第二個參數是區間 第三個參數是標籤,每一份代表什麼
2、等頻率離散化,將相同數量的數據放入每個區間
3、一維聚類離散化,將連續的值通過聚類算法聚類,
屬性構造
通過原屬性得到新屬性
數據規約
屬性規約與數值規約概述
規約的核心就是精簡
1、屬性規約,
2、數值規約
主成分分析(屬性規約)
PCA算法,主要用於數據的降維