數據分析——特徵工程

原創

钉洲小懒猫

2018-08-29 06:47

1. 數據預處理

1.1 缺失值處理

根據經驗值填充失數據
計算均值，中位數，衆數。。等填充數據
重新獲取缺失數據

1.2 數據格式/字符類型不符

1.3 邏輯錯誤

數據重複，去重操作
數據邏輯不合理，如存在相關性的值之間存在矛盾（eg: 身份證號碼和填寫生日）

1.4 非需求數據處理

1.5 文本數據

無關數據
髒數據

1.6 圖片數據

圖片格式
圖片本身質量

2. 數據變換

2.1 尺度縮放

0-1標準化，z標準化（使不同特徵的權重標準化）
歸一化操作對於向量

2.2 特徵變化

二值化，如將數據劃分爲0，1
分區間，如對於面積，價格等量，劃分區間處理
精度調整，如小數點後保留的位數
log變換，處理大數據

3. 特徵表示與特徵交互

3.1 特徵表示

自然數編碼與one-hot編碼
自然數編碼對於有實際差別意義的場景；one-hot編碼在特徵空間中，座標之間的距離是相等的，適用於無實際差別意義的場景

3.2 特徵交互

兩個或多個特徵，構建出新特徵
特徵組合，多個特徵放在一起處理

4. 文本

4.1 文本特徵提取

詞袋：分詞，編號（每個詞出現的次數），將文本轉化爲特徵向量
bag-of-ngram：對詞進行組合

4.2 詞頻統計TF-IDF

TF * log(IDF), 對IDF log變換以壓縮
TF詞頻=出現次數/文檔總次數 -- 歸一化效果，當前信息
IDF詞頻=文檔總數/出現某詞文檔數 -- 整個環境的信息

5. 圖像

圖像的邊緣信息
提起圖像色彩直方圖

6. 特徵選擇

考慮每個特徵的權重，以進行特徵選擇；
對特徵全集取子集，生成不同的組合;（控制變量）在模型既定時，加入不同的特徵，選擇準確度更高的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據分析——特徵工程

1. 數據預處理

1.1 缺失值處理

1.2 數據格式/字符類型不符

1.3 邏輯錯誤

1.4 非需求數據處理

1.5 文本數據

1.6 圖片數據

2. 數據變換

2.1 尺度縮放

2.2 特徵變化

3. 特徵表示與特徵交互

3.1 特徵表示

3.2 特徵交互

4. 文本

4.1 文本特徵提取

4.2 詞頻統計TF-IDF

5. 圖像

6. 特徵選擇

python庫pandas 基礎介紹

排查解決 json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

常用數據規範化方法: min-max規範化，零-均值規範化等

sql 條件判斷 if / case when then / ifnull

python庫 numpy基礎，詳解與實踐

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結