1.數據類型
(1)數值型
● 連續型:利用實數表示屬性
● 離散型:利用整數表示屬性
(2)標稱型
● 0-1型:預先定義一個類別,若記錄屬於該類別則爲1,否則爲0
● 多值標稱型:預先定義一個類別集合,用類別集合中的一個或多個來描述樣本
(3)序列型:有序的數值型或標稱型值串
(4)序數型:具有偏序關係的離散數值
2.數據清洗
(1)噪聲數據
● 平滑
● 裝箱
(2)缺失數據
● 均值/衆數/中位數補全
● 啓發式補全
(3)相關性計算
● 皮爾遜相關係數
● 斯皮爾曼相關係數
● 互信息
3.數據轉換
(1)數據離散化
● 等頻裝箱
● 等寬裝箱
(2)數據數值化
● One-Hot編碼
● 排序編碼
(3)數據歸一化
● 最大最小歸一化
● Z-SCORE歸一化
參考鏈接:https://blog.csdn.net/yuxiao_v/article/details/79414022