機器學習任務的一般步驟

原創

2018-09-03 05:54

一、確定特徵：（收集訓練數據）

1 > 數據探索：（爲什麼要進行數據探索呢：有助於選擇 合適的 數據預處理方法 和 建模方法）

    （1）數據質量分析
          -- 缺失值
          -- 異常值
    （2）特徵分佈特性的分析
          -- 統計量
          -- 直方圖
    （3）特徵之間相關性分析


2 > 數據預處理：

3 > 特徵選擇：

二、確定模型：（暫定確切的模型）

三、模型訓練：（根據樣本數據計算模型參數）

四、模型評估：（根據測試數據，評估模型的預測性能）

note：深度學習可學習 feature

===========================================================================================

—–>確定特徵—->數據探索——>數據質量分析——–> 缺失值：

1.統計含有缺失值的樣本數目  及  缺失率

2.缺失值的處理：

    1> 刪除含有（一個或多個）缺失值的樣本 (從 行 的角度考慮)

    2> 刪除缺失值太多的特徵(從 列 的角度考慮)

    3> 對缺失值進行插補

        —— 均值mean(默認的方法)
        —— 中位數median
        —— 衆數 most_frequent
        —— 固定值插補 （根據背景知識用某些常量進行插補）
        —— 最近鄰插補 （尋找最相似的樣本，用該樣本對應的屬性進行插補）
        —— 迴歸方法 （用沒有缺失的數據建立迴歸方程預測不完整的樣本數據）
        —— 插值法 （利用該變量已有數據 建立合適的插值函數 進行插補）

    4> 不處理（有些框架可處理數據缺失的情況，如：xgboost）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習任務的一般步驟

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

mac安裝scrapy

python簡單基礎介紹

1366 (HY000): Incorrect string value

簡單的C回顧

很好的CNN學習資料

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結