機器數據挖掘--常見監督學習算法以及數據挖掘流程

有監督(分類,迴歸) 無監督(聚類,降維)

迴歸問題是指f(x)是一個連續的值,給定一個新的模式,根據訓練集推斷它所對應的輸出值(實數)是多少,是一種定量輸出,也叫連續變量預測。

分類問題是指f(x)是一個離散的值,給定一個新的模式,根據訓練集推斷它所對應的類別(如:+1,-1),是一種定性輸出,也叫離散變量預測。

迴歸算法:
線性迴歸
嶺迴歸
樹迴歸
分類算法:
邏輯迴歸
K鄰近
樸素貝葉斯
支持向量機
決策樹:ID3,C4.5,cart
集成算法:隨機森林,adaboost,xgboost

挖掘流程
從大量數據中獲取有效的,新穎的,潛在有用的。簡單地說,數據挖掘就是從大量數據中提取或挖掘知識

定義問題
準備數據
數據預處理
特徵工程
生成模型
評價模型部署和更新模型

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章