機器學習 數據分析基礎

1.數據類型

(1)數值型
   ● 連續型:利用實數表示屬性
   ● 離散型:利用整數表示屬性
(2)標稱型
   ● 0-1型:預先定義一個類別,若記錄屬於該類別則爲1,否則爲0
   ● 多值標稱型:預先定義一個類別集合,用類別集合中的一個或多個來描述樣本
(3)序列型:有序的數值型或標稱型值串
(4)序數型:具有偏序關係的離散數值

2.數據清洗 

(1)噪聲數據
   ● 平滑
   ● 裝箱
(2)缺失數據
   ● 均值/衆數/中位數補全
   ● 啓發式補全
(3)相關性計算
   ● 皮爾遜相關係數
   ● 斯皮爾曼相關係數
   ● 互信息

3.數據轉換

(1)數據離散化
   ● 等頻裝箱
   ● 等寬裝箱
(2)數據數值化
   ● One-Hot編碼
   ● 排序編碼
(3)數據歸一化
   ● 最大最小歸一化
   ● Z-SCORE歸一化

參考鏈接:https://blog.csdn.net/yuxiao_v/article/details/79414022

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章