特徵工程之連續/離散特徵的處理

原創

2020-03-10 07:33

離散特徵：

無序離散特徵：one-hot encoding，比如所屬國家、城市
- 無序離散特徵：one-hot encoding，比如所屬國家，城市。(1)如果one-hot之後unique值不多可以不用做Embedding， (2)但是如果該特徵unique值過多，比如所屬國家、城市，onehot產生的矩陣過寬，這種情況下，我們的通常做法就是將其轉換爲embedding。
- 也可以先做LabelEncoder將特徵的不同取值區分開，然後再embedding
有序離散特徵：label encoding，比如年齡

連續特徵：

歸一化：去除不同維度數據的量綱以及量綱單位
標準化: 標準化成正態分佈之後，可以更加容易地得出最優參數目標函數的最小值，從而達到加速收斂的效果。

區別：兩者都可以對特徵做幅度縮放，兩者的效果差不多，選擇其中一個即可。

正則化：

常見的有正則項有 L1 正則和 L2 正則以及 Dropout

更詳細內容請參考：ML 入門：歸一化、標準化和正則化

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

特徵工程入門與實踐----特徵增強

特徵增強是對數據的進一步修改，我們開始清洗和增強數據。主要涉及的操作有識別數據中的缺失值刪除有害數據輸入缺失值對數據進行歸一化/標準化 1. 識別數據中的缺失值特徵增強的第一種方法是識

勤奋的小学生

2020-07-06 20:33:18

特徵工程入門與實踐----特徵工程簡介

人工智能的發展，讓我們將那些需要手動操作才能處理的問題，讓計算機也可以解決。例如，自然語言處理、人臉識別和圖片分類等。因此，我們需要藉助機器學習的知識來構建一個AI系統，從用戶那裏讀取到原始數據，讓計算機來幫助我們

勤奋的小学生

2020-07-06 20:33:18

特徵工程入門與實踐----特徵理解

特徵理解，簡單說就是理解數據中都有什麼，對數據的理解方便我們認清數據，從而對數據進行操作，構造有用的特徵。我們將從以下幾個方面來認清數據：結構化數據與非結構化數據定量數據與定性數據數據的4個等級探索性數據

勤奋的小学生

2020-07-06 20:33:18

時間切片特徵衍生

在sql中比較容易處理類似“近n個月金額之和／最大值／最小值／平均值” 這樣的變量，使用sum(case when date then amount else 0 end) 即可，如果是出差在外只能處理離線數據不能使用數據庫時，這個時候

2020-07-05 12:30:32

jieba 中文分詞介紹及使用

目錄基本介紹功能及使用 1. 分詞 2. 添加自定義詞典 2.1 載入詞典 2.2 調整詞典 3. 關鍵詞提取 3.1 基於 TF-IDF 算法的關鍵詞抽取 3.2 基於 TextRank 算法的關鍵詞抽取 4. 詞性標註 5

2020-07-05 12:30:32

fasttext算法原理及使用

1. FastText原理 fastText是一種簡單高效的文本表徵方法，性能與深度學習比肩。fastText的核心思想就是：將整篇文檔的詞及n-gram向量疊加平均得到文檔向量，然後使用文檔向量做softmax多分類。這中間涉及到兩個

2020-07-05 12:30:32

從詞袋到 tf-idf

複習一下文本處理的一些基本概念。詞袋：Bag-of-words，基於單詞數量統計的最簡單的文本特徵表示方法。對於文本數據，詞袋可以理解爲單詞數量的統計列表。文本“it is a puppy and it is extremely

2020-07-05 12:30:32

特徵工程（一）——數值數據

2020-07-05 10:54:07

【精通特徵工程】學習筆記（二）

【精通特徵工程】學習筆記Day2&2.5&D3章&P33-頁 3、文本數據:扁平化、過濾和分塊 3.1 元素袋:將自然文本轉換爲扁平向量 3.1.1 詞袋一個特徵就是一個單詞，一個特徵向量由這個單詞在每篇文檔中出現的次數組成

2020-07-05 05:52:56

處理正負樣本不均衡問題

在原文的基礎上 Ref: https://www.zhihu.com/question/27535832/answer/223882022 進行修改。記憶輔助：樣本不均衡就是正樣本太少，負樣本太對，(1)增加正樣本-過採樣;減少負樣本-

2020-07-03 17:35:33

數據挖掘——特徵選擇

數據挖掘——特徵選擇前言特徵選擇前言特徵選擇是數據挖掘人物中相當重要的一步，選擇地好既能去除冗餘特徵減少不必要的計算，又能增加數據的表達性，增加算法的準確率。特徵選擇的方法很多，需要一個蘿蔔一個坑，所以需要找到最適合當前任務的

2020-07-03 16:10:50

特徵工程——特徵交叉、交叉特徵、特徵組合

特徵工程——特徵交叉、交叉特徵、特徵組合關於特徵交叉的作用以及原理，我這裏不進行詳細描述，因爲大佬們已經說得很清楚了，這裏就附上幾個連接：特徵組合&特徵交叉 (Feature Crosses) 結合sklearn進行特徵工程

2020-07-03 16:10:50

數據挖掘——爲什麼使用啞變量？啞變量有哪些作用？哪些情況應該使用啞變量？

數據挖掘——爲什麼使用啞變量？啞變量有哪些作用？哪些情況應該使用啞變量？直接給鏈接： https://www.cnblogs.com/sddai/p/8834373.html

2020-07-03 16:10:50

問題記錄——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'

問題記錄——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'解決辦法:降級numpy 可以使用如下寫入h5文件 df.to_hdf('../te

2020-07-03 16:10:50

day 7 特徵選擇

import pandas as pd import numpy as np data = pd.read_csv("digit recognizor.csv") # print(data.head()) x = data.iloc[

口袋里的小小哥

2020-07-03 03:13:47

24小時熱門文章

最新文章

最新評論文章