數據處理與特徵工程

原創

2020-02-25 01:56

數據清洗：對各種髒數據進行對應方式的處理，得到標準、乾淨、連續的數據、提供給數據統計、數據挖掘等使用

數據採樣：

數據不平衡——指數據集的類別分佈不均（例如：一個二分類問題，100個訓練樣本，比較理想的情況是正類、父類相差不多；而如果正類樣本有99個，父類樣本僅1個，則意味存在類不平衡），此時預測時就算全部爲正，準確率也爲99%，這並不能反映模型的好壞
解決方法
——過採樣：通過隨機複製少類來增加其中的實例數量，從而可增加樣本中少數類的代表性。
——欠採樣：通過隨機的消除佔多數的類的樣本來平衡類分佈；直到多數類和少數類的實例實現平衡

數據集拆分
機器學習中將數據劃分爲三份

常用拆分方法

留出法：直接將數據集劃分爲互斥的集合，如通常選擇70%數據作爲訓練集，30%作爲測試集。需注意的是保持劃分後集合數據分佈的一致性，避免劃分過程中引入額外的偏差而對最終結果產生影響
K-折交叉驗證法：將數據集劃分爲k個大小相似的互斥子集，並且儘量保證每個子集數據分佈的一致性。這樣，就獲取了K組訓練-測試集，從而進行k次訓練和測試，k通常取值爲10.

特徵編碼:數據集中經常會出現字符串信息，例如男女、高中低等，這類信息不能直接用於算法計算，需要將這些數據轉化爲數據形式進行編碼，便於後期進行建模

one-hot編碼：採用N位狀態寄存器來對N個狀態進行編碼，每個狀態都由他獨立的寄存器位，並在任意時候只有一位有效（例如：統計商業大樓是否有無電梯，可以用01、10表示有無電梯
語義編碼：one-hot編碼無法體現數據見的語義關係，對於一些有關聯的文本信息來說，無法真正體現出數據關聯（對於這類信息通常採用詞嵌入的方式是比較好的選擇，詞嵌入信息可以編碼語義信息，生成特徵語義表示）

特徵降維：特徵選擇完成後，可能由於特徵矩陣過大，導致計算量大、訓練時間長，因此降低特徵矩陣維度也是必不可少的

模型選擇
泛化誤差：在“未來”樣本上的誤差
經驗誤差：在訓練集上的誤差
性能評價指標-分類
準確率：是指在分類中，分類正確的記錄個數佔總記錄個數的比
召回率：查全率，是指在分類中樣本中的正例有多少被預測正確了
通常，準確率高時，召回率偏低；召回率高時，準確率偏低

分類問題

迴歸問題

聚類問題

其他問題

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.