Python數據分析——數據變換和數據規約(主成分分析)

數據變換

簡單變換

1、數據變換的目的是將數據轉化爲更方便分析的數據

2、簡單變換通常使用函數變換的方式進行,常見的函數變換包括:開方,平方,對數等

數據規範化

1、離差標準化--消除量綱(單位)影響以及變異大小因素的影響(最小最大標準化)

    x1 = (x-min) / (max-min)  # 將大數據轉爲小數據

2、標準差標準化--消除單位影響以及變量自身變異影響。

    x1 = (x-平均數) / 標準差  # 一半數據大於0,一半數據小於0

3、小數定標規範化--消除單位影響(除以10的倍數)

    x1 = x/10**(k)

    k = log10(x的絕對值的最大值)

離散化

1、等寬離散化,將屬性的值分爲相同寬度的區間

pd.cut() # 第一個參數是數據  第二個參數是區間  第三個參數是標籤,每一份代表什麼

2、等頻率離散化,將相同數量的數據放入每個區間

3、一維聚類離散化,將連續的值通過聚類算法聚類,

屬性構造

通過原屬性得到新屬性

數據規約

屬性規約與數值規約概述

規約的核心就是精簡

1、屬性規約,

2、數值規約

主成分分析(屬性規約)

PCA算法,主要用於數據的降維

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章