機器學習:從數據中自動分析獲得模型,利用模型對未知數據進行預測
,
機器學習工作流程
1、獲取數據
2、數據基本處理
3、特徵工程
4、模型訓練
5、模型評估
(1)結果達到要求,上線服務
(2)沒有達到要求,重新開始
機器學習流程各個步驟解釋
1、獲取數據
1、數據集中一行數據稱爲樣本,一列數據稱爲一個特徵。
2、數據類型:特徵值+目標值或者只有特徵值沒有目標值
3、數據分割:機器學習一般數據集分爲兩部分:訓練數據和測試數據
訓練數據:用於訓練,構建模型
測試數據:模型檢驗時使用,用於評估模型
4、劃分比例:訓練集80%,測試集20%
2、數據基本處理
數據缺失值或者異常值的處理
3、特徵工程
特徵提取:將任意數據(文本或圖像)轉爲可用於機器學習的特徵數據的過程。
特徵預處理:通過轉換函數將特徵數據轉爲更加適合算法模型的特徵數據過程。
特徵降維:降低隨機變量個數。比如三維降爲二維
4、模型訓練
選擇合適的算法進行模型訓練
5、模型評估
對訓練好的數據進行評估